一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@cwolferesearch 最近读到一篇很好的多教师 on-policy disti… 概述

@cwolferesearch Recently read a great overview of multi-teacher on-policy disti…

二〇二六年五月八日 · 英文原文

文章综述 multi-teacher on-policy distillation(MOPD):从 student 采样 trajectories,用 reverse KL 匹配 teacher log probability,并可并入 GRPO loss。MiMo-V2-Flash、GLM-5、Nemotron-Cascade 2、DeepSeek-V4 等在 post-training 中使用 domain-specific teachers、checkpoints 或 experts 进行 distillation,部分包含 self-distillation 与 full vocabulary distillation。

最近读到一篇关于 multi-teacher on-policy distillation(MOPD)的很好综述,以及它在 MiMo-V2-Flash、GLM-5、Nemotron-Cascade 2、DeepSeek-V4 等近期 LLM 中的使用方式……

什么是 on-policy distillation(OPD)?OPD 的想法很简单。我们有一个 student 和一个 teacher。我们从 student 中采样 trajectories,然后使用 reverse KL divergence 作为目标,使这些 trajectories 上的 teacher log probability distribution 与之匹配。这个训练设置可以通过用 reverse KL 替换 group-relative advantage,集成到 GRPO loss 中。

Multi-teacher OPD(MOPD)通过在 OPD 训练中引入多个 teacher 来扩展这个想法。由于 RLVR 训练具有 domain-specific 特性,这一想法很有用。如果我们用 RLVR 在 math 上训练模型,可能会提升 math 性能,但损害模型在 creative tasks 上的质量。同样,用 tool use data 对模型进行 RL training,也可能降低其在 general-purpose benchmarks 上的表现。为了解决这种跷跷板问题,我们可以用 RL 训练 domain-specific models,并使用 MOPD 将它们 distill 到单个 student 中。

使用 MOPD 进行 post-training 已成为近期模型的常见选择:

这篇 blog 还包含一段很好的说明,解释为什么 self-distillation 是 MOPD 中有用的补充:“Self 是 MOPD 开始时 student 的一个 snapshot——一个固定、稳定的 reference distribution。在 SFT/RL teachers 将 student 推向不熟悉区域的 tokens 上,向 Self distill 可以防止 catastrophic drift。”

尽管 MOPD 在多个不同报告中已经相当常见,但所使用的方法都非常相似(即 reverse KL、on-policy distillation、multiple teachers),这表明 OPD / MOPD 正在成为近期模型 training pipelines 中更标准化的方法。

blog 链接:https://t.co/kNc9heqE3T

译自 X · 研究者一手 · 录于 二〇二六年五月八日