PhysicianBench:在真实世界 EHR 环境中评估 LLM agent
PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments
我们介绍 PhysicianBench,这是一个用于评估 LLM agent 在 physician 任务上表现的 benchmark,其任务基于 electronic health record (EHR) 环境中的真实临床场景。现有 medical agent benchmark 主要关注静态知识回忆、单步原子操作,或无法针对环境进行可验证执行的 action intent。因此,它们未能捕捉真实临床系统所具有的长程、复合工作流。
PhysicianBench 包含 100 个长程任务,改编自初级保健医生与亚专科医生之间的真实会诊案例;每个任务都由独立的医生小组单独审核。任务在 EHR 环境中实例化,使用真实 patient records,并通过商业 EHR 厂商所使用的相同标准 API 访问。任务覆盖 21 个专科(如 cardiology、endocrinology、oncology、psychiatry)和多种工作流类型(如 diagnosis interpretation、medication prescribing、treatment planning),平均每个任务需要 27 次 tool call。完成每个任务都需要跨就诊记录检索数据、对异构临床信息进行推理、执行具有临床后果的操作,并生成临床文档。每个任务被分解为结构化 checkpoints(整个 benchmark 共 670 个),用于捕捉不同完成阶段,并由任务特定脚本基于执行结果进行验证评分。
在 13 个 proprietary 和 open-source LLM agent 中,表现最佳的模型仅达到 46% 的成功率(pass@1),而 open-source 模型最高只有 19%。这表明当前 agent 能力与真实世界临床工作流需求之间仍存在显著差距。PhysicianBench 提供了一个现实且基于执行验证的 benchmark,用于衡量面向自主临床 agent 的进展。