Hugging Face · Daily Papers

协同演化的策略蒸馏

Co-Evolving Policy Distillation

Naibin Gu, Chenxu Yang, Qingyi Si, Chuanyu Qin, Dingyu Yao, Peng Fu, Zheng Lin, Weiping Wang 等 10 位

二〇二六年五月一日 · arXiv:2604.27083 · PDF

摘要

RLVR 和 OPD 已成为 post-training 的标准范式。我们对这两种范式在将多个专家能力整合到单一模型中的作用进行了统一分析，并以不同方式识别能力损失：mixed RLVR 会受到跨能力 divergence cost 的影响；而先训练专家、再执行 OPD 的 pipeline 虽然避免了 divergence，但由于 teacher 与 student 之间存在较大的 behavioral pattern gap，无法充分吸收 teacher 能力。

我们提出 Co-Evolving Policy Distillation（CoPD），鼓励并行训练专家，并在每个专家持续进行 RLVR 训练期间引入 OPD，而不是在专家训练完成后再执行 OPD；同时让专家互为 teacher（使 OPD 变为双向）以共同演化。这使得专家之间的 behavioral pattern 更加一致，同时在整个过程中保持足够的互补知识。

实验验证表明，CoPD 实现了 text、image 和 video reasoning 能力的 all-in-one 集成，显著优于 mixed RLVR 和 MOPD 等强基线，甚至超过了特定领域专家。CoPD 提供的模型并行训练模式可能启发一种新的 training scaling 范式。