一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

面向医疗 agent 的 Healthcare AI GYM

Healthcare AI GYM for Medical Agents

Minbyul Jeong
二〇二六年五月六日 · arXiv:2605.02943 · PDF · Code

临床推理需要多步交互——采集患者病史、开具检查、解读结果,并做出安全的治疗决策——然而,一个既能覆盖广泛临床领域、又能提供专用工具,以通过 reinforcement learning 训练可泛化 medical AI agents 的统一训练环境,仍然难以获得。

我们提出了一项关于 medical AI 中 multi-turn agentic RL 的综合实证研究。该研究基于一个兼容 gymnasium 的环境,覆盖 10 个临床领域,包含 3.6K+ 个任务、135 个领域专用工具,以及由 828K 篇医学段落组成的知识库。我们的分析表明,agentic multi-turn 结构会退化为冗长的 single-turn 独白,其特征是响应长度单调膨胀,同时工具使用频率下降。我们刻画了这种崩塌以及 distillation 不稳定性如何源于 sparse terminal rewards 与序列化临床轨迹之间的不匹配。我们发现,vanilla GRPO 在部分 benchmark 上能取得较强的最终准确率,但存在训练不稳定问题,表现为响应长度显著振荡以及收敛周期较长。

为提升训练效率和稳定性,我们提出 Turn-level Truncated On-Policy Distillation(TT-OPD),这是一种 self-distillation 框架,其中无需梯度的 EMA teacher 利用 outcome-privileged information,在每个对话轮次提供密集的、outcome-aware 的 KL regularization。TT-OPD 在 18 个 benchmark 中的 10 个上取得最佳性能,相比 non-RL baseline 平均提升 +3.9 pp,并表现出更快的早期收敛、受控的响应长度,以及持续的 multi-turn 工具使用。

译自 Hugging Face · Daily Papers · arXiv:2605.02943 · 录于 二〇二六年五月六日