一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@cwolferesearch 关于 multi-teacher on-policy distil… 效用的好观点

@cwolferesearch Great point about the utility of multi-teacher on-policy distil…

二〇二六年五月九日 · 英文原文

内容讨论 multi-teacher on-policy distillation 与 multi-domain RL 的差异:后者在 statistical/modeling 与 efficiency 上面临 domain 间取舍、rollout/advantage 计算复杂、verifier 成本差异等问题;前者通过固定模型生成 rollout,将 RL 训练的 domain-specific models 蒸馏为 single policy,并提到一篇 compaction 技术博客。

关于 multi-teacher on-policy distillation 的效用,以及为什么这种方法可能优于直接在 RL 训练中包含多个 domain,这是个很好的观点。

Multi-domain RL 可能很困难,主要体现在:

具体来说,不同 domain 可能需要不同的响应长度,或成本差异很大的 verifier(例如 heuristic verification 相比 LLM judge)。这会把 inter-task heterogeneity 引入 RL,可能导致更多空闲时间 / 造成效率低下。

相比之下,multi-teacher on-policy distillation 仍然可能有不同的响应长度,但它从一个固定模型生成 rollout,并且训练信号的成本更恒定(除非每个 teacher 可能是大小差异很大的模型)。因此,更容易 / 更高效的做法可能是:

有哪些好的博客 / 论文介绍不同的 compaction 技术及其相对性能?这篇博客很好地覆盖了各种选项及其缺点:https://t.co/gFAvrdepQx

不过,它没有提供太多关于精确 metric / performance 的细节,以及不同技术的 failure case。

post 链接:https://t.co/kNc9heqE3T

译自 X · 研究者一手 · 录于 二〇二六年五月九日