@cwolferesearch 关于 multi-teacher on-policy distil… 效用的好观点
@cwolferesearch Great point about the utility of multi-teacher on-policy distil…
内容讨论 multi-teacher on-policy distillation 与 multi-domain RL 的差异:后者在 statistical/modeling 与 efficiency 上面临 domain 间取舍、rollout/advantage 计算复杂、verifier 成本差异等问题;前者通过固定模型生成 rollout,将 RL 训练的 domain-specific models 蒸馏为 single policy,并提到一篇 compaction 技术博客。
关于 multi-teacher on-policy distillation 的效用,以及为什么这种方法可能优于直接在 RL 训练中包含多个 domain,这是个很好的观点。
Multi-domain RL 可能很困难,主要体现在:
- statistical / modeling 角度(即在多个 domain 上训练可能会在模型性能上产生取舍)。
- efficiency 角度(即在一个 batch 中高效计算多个 domain 的 rollout / advantage 可能很复杂)。
具体来说,不同 domain 可能需要不同的响应长度,或成本差异很大的 verifier(例如 heuristic verification 相比 LLM judge)。这会把 inter-task heterogeneity 引入 RL,可能导致更多空闲时间 / 造成效率低下。
相比之下,multi-teacher on-policy distillation 仍然可能有不同的响应长度,但它从一个固定模型生成 rollout,并且训练信号的成本更恒定(除非每个 teacher 可能是大小差异很大的模型)。因此,更容易 / 更高效的做法可能是:
- 用 RL 训练 domain-specific models。
- 运行 multi-teacher distillation,把这些 domain-specific experts 合并到一个 single policy 中。
有哪些好的博客 / 论文介绍不同的 compaction 技术及其相对性能?这篇博客很好地覆盖了各种选项及其缺点:https://t.co/gFAvrdepQx
不过,它没有提供太多关于精确 metric / performance 的细节,以及不同技术的 failure case。
post 链接:https://t.co/kNc9heqE3T