Hugging Face · Daily Papers

PhysicianBench：在真实世界 EHR 环境中评估 LLM agent

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

Ruoqi Liu, Imran Q. Mohiuddin, Austin J. Schoeffler, Kavita Renduchintala, Ashwin Nayak, Prasantha L. Vemu, Shivam C. Vedak, Kameron C. Black 等 13 位

来自 Stanford University

二〇二六年五月五日 · arXiv:2605.02240 · PDF · Code

摘要

我们介绍 PhysicianBench，这是一个用于评估 LLM agent 在 physician 任务上表现的 benchmark，其任务基于 electronic health record (EHR) 环境中的真实临床场景。现有 medical agent benchmark 主要关注静态知识回忆、单步原子操作，或无法针对环境进行可验证执行的 action intent。因此，它们未能捕捉真实临床系统所具有的长程、复合工作流。

PhysicianBench 包含 100 个长程任务，改编自初级保健医生与亚专科医生之间的真实会诊案例；每个任务都由独立的医生小组单独审核。任务在 EHR 环境中实例化，使用真实 patient records，并通过商业 EHR 厂商所使用的相同标准 API 访问。任务覆盖 21 个专科（如 cardiology、endocrinology、oncology、psychiatry）和多种工作流类型（如 diagnosis interpretation、medication prescribing、treatment planning），平均每个任务需要 27 次 tool call。完成每个任务都需要跨就诊记录检索数据、对异构临床信息进行推理、执行具有临床后果的操作，并生成临床文档。每个任务被分解为结构化 checkpoints（整个 benchmark 共 670 个），用于捕捉不同完成阶段，并由任务特定脚本基于执行结果进行验证评分。

在 13 个 proprietary 和 open-source LLM agent 中，表现最佳的模型仅达到 46% 的成功率（pass@1），而 open-source 模型最高只有 19%。这表明当前 agent 能力与真实世界临床工作流需求之间仍存在显著差距。PhysicianBench 提供了一个现实且基于执行验证的 benchmark，用于衡量面向自主临床 agent 的进展。