SymptomAI:迈向用于日常症状评估的对话式 AI Agent
SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment
Language models 在经过整理的医学病例研究和临床 vignette 上擅长诊断评估,其表现与临床专业人员相当,甚至更好。然而,现有研究多关注上下文丰富的复杂场景,因此难以判断这些系统在患者日常生活中报告症状时的表现。我们通过 Fitbit app 部署了 SymptomAI,这是一组用于端到端患者问诊和 differential diagnosis(DDx,鉴别诊断)的 conversational AI agent,并在一项研究中将参与者(N=13,917)随机分配给五个 AI agent 进行交互。该语料库来自真实世界人群,涵盖多样化的沟通方式以及疾病的现实分布。
其中 1,228 名参与者报告了由临床医生给出的诊断;在这些人中,517 名又经过一个临床医生小组超过 250 小时的标注评估。在盲法随机比较中,在给定相同对话的条件下,SymptomAI 的 DDx 准确率显著高于独立临床医生(OR = 2.47,p < 0.001)。此外,在给出诊断前进行专门症状访谈、以获取更多症状信息的 agentic strategy,显著优于 baseline 的用户引导式对话(p < 0.001)。基于美国普通人群面板中 1,509 段对话的辅助分析验证了这些结果可推广到可穿戴设备用户之外的人群。
我们使用 SymptomAI 诊断作为全部 13,917 名参与者的标签,分析了近 400 种不同疾病条件下超过 500,000 天的可穿戴指标。我们发现急性感染与生理指标变化之间存在强关联(例如,流感的 OR > 7)。尽管受到自报 ground truth 的限制,这些结果表明,与用户引导式症状讨论相比,专门且完整的症状访谈具有优势;而后者是多数面向消费者的 LLM 的默认方式。