X · 研究者一手

@cwolferesearch 关于 multi-teacher on-policy distil… 效用的好观点

@cwolferesearch Great point about the utility of multi-teacher on-policy distil…

二〇二六年五月九日 · 英文原文

摘要

内容讨论 multi-teacher on-policy distillation 与 multi-domain RL 的差异：后者在 statistical/modeling 与 efficiency 上面临 domain 间取舍、rollout/advantage 计算复杂、verifier 成本差异等问题；前者通过固定模型生成 rollout，将 RL 训练的 domain-specific models 蒸馏为 single policy，并提到一篇 compaction 技术博客。

关于 multi-teacher on-policy distillation 的效用，以及为什么这种方法可能优于直接在 RL 训练中包含多个 domain，这是个很好的观点。

Multi-domain RL 可能很困难，主要体现在：

statistical / modeling 角度（即在多个 domain 上训练可能会在模型性能上产生取舍）。
efficiency 角度（即在一个 batch 中高效计算多个 domain 的 rollout / advantage 可能很复杂）。

具体来说，不同 domain 可能需要不同的响应长度，或成本差异很大的 verifier（例如 heuristic verification 相比 LLM judge）。这会把 inter-task heterogeneity 引入 RL，可能导致更多空闲时间 / 造成效率低下。

相比之下，multi-teacher on-policy distillation 仍然可能有不同的响应长度，但它从一个固定模型生成 rollout，并且训练信号的成本更恒定（除非每个 teacher 可能是大小差异很大的模型）。因此，更容易 / 更高效的做法可能是：

用 RL 训练 domain-specific models。
运行 multi-teacher distillation，把这些 domain-specific experts 合并到一个 single policy 中。

有哪些好的博客 / 论文介绍不同的 compaction 技术及其相对性能？这篇博客很好地覆盖了各种选项及其缺点：https://t.co/gFAvrdepQx

不过，它没有提供太多关于精确 metric / performance 的细节，以及不同技术的 failure case。

post 链接：https://t.co/kNc9heqE3T

译自 X · 研究者一手 · 录于二〇二六年五月九日