一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

PhysicianBench:在真实世界 EHR 环境中评估 LLM agent

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

Ruoqi Liu, Imran Q. Mohiuddin, Austin J. Schoeffler, Kavita Renduchintala, Ashwin Nayak, Prasantha L. Vemu, Shivam C. Vedak, Kameron C. Black 等 13 位
来自 Stanford University
二〇二六年五月五日 · arXiv:2605.02240 · PDF · Code

我们介绍 PhysicianBench,这是一个用于评估 LLM agent 在 physician 任务上表现的 benchmark,其任务基于 electronic health record (EHR) 环境中的真实临床场景。现有 medical agent benchmark 主要关注静态知识回忆、单步原子操作,或无法针对环境进行可验证执行的 action intent。因此,它们未能捕捉真实临床系统所具有的长程、复合工作流。

PhysicianBench 包含 100 个长程任务,改编自初级保健医生与亚专科医生之间的真实会诊案例;每个任务都由独立的医生小组单独审核。任务在 EHR 环境中实例化,使用真实 patient records,并通过商业 EHR 厂商所使用的相同标准 API 访问。任务覆盖 21 个专科(如 cardiology、endocrinology、oncology、psychiatry)和多种工作流类型(如 diagnosis interpretation、medication prescribing、treatment planning),平均每个任务需要 27 次 tool call。完成每个任务都需要跨就诊记录检索数据、对异构临床信息进行推理、执行具有临床后果的操作,并生成临床文档。每个任务被分解为结构化 checkpoints(整个 benchmark 共 670 个),用于捕捉不同完成阶段,并由任务特定脚本基于执行结果进行验证评分。

在 13 个 proprietary 和 open-source LLM agent 中,表现最佳的模型仅达到 46% 的成功率(pass@1),而 open-source 模型最高只有 19%。这表明当前 agent 能力与真实世界临床工作流需求之间仍存在显著差距。PhysicianBench 提供了一个现实且基于执行验证的 benchmark,用于衡量面向自主临床 agent 的进展。

译自 Hugging Face · Daily Papers · arXiv:2605.02240 · 录于 二〇二六年五月五日