Hugging Face · Daily Papers

面向医疗 agent 的 Healthcare AI GYM

Healthcare AI GYM for Medical Agents

Minbyul Jeong

二〇二六年五月六日 · arXiv:2605.02943 · PDF · Code

摘要

临床推理需要多步交互——采集患者病史、开具检查、解读结果，并做出安全的治疗决策——然而，一个既能覆盖广泛临床领域、又能提供专用工具，以通过 reinforcement learning 训练可泛化 medical AI agents 的统一训练环境，仍然难以获得。

我们提出了一项关于 medical AI 中 multi-turn agentic RL 的综合实证研究。该研究基于一个兼容 gymnasium 的环境，覆盖 10 个临床领域，包含 3.6K+ 个任务、135 个领域专用工具，以及由 828K 篇医学段落组成的知识库。我们的分析表明，agentic multi-turn 结构会退化为冗长的 single-turn 独白，其特征是响应长度单调膨胀，同时工具使用频率下降。我们刻画了这种崩塌以及 distillation 不稳定性如何源于 sparse terminal rewards 与序列化临床轨迹之间的不匹配。我们发现，vanilla GRPO 在部分 benchmark 上能取得较强的最终准确率，但存在训练不稳定问题，表现为响应长度显著振荡以及收敛周期较长。

为提升训练效率和稳定性，我们提出 Turn-level Truncated On-Policy Distillation（TT-OPD），这是一种 self-distillation 框架，其中无需梯度的 EMA teacher 利用 outcome-privileged information，在每个对话轮次提供密集的、outcome-aware 的 KL regularization。TT-OPD 在 18 个 benchmark 中的 10 个上取得最佳性能，相比 non-RL baseline 平均提升 +3.9 pp，并表现出更快的早期收敛、受控的响应长度，以及持续的 multi-turn 工具使用。