超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL
大型多模态模型(LMMs)的标准后训练流程通常是在精选 demonstrations 上进行 supervised fine-tuning(SFT),随后使用 verifiable rewards 进行 reinforcement learning(RLVR)。然而,SFT 会引入 distributional drift,既无法保持模型原有能力,也无法忠实匹配监督分布。在多模态推理中,这一问题会进一步放大,因为 perception errors 和 reasoning failures 遵循不同的漂移模式,并会在后续 RL 过程中相互叠加。
我们提出 PRISM,这是一个三阶段 pipeline,通过在 SFT 与 RLVR 之间插入显式的 distribution-alignment 阶段来缓解这种漂移。基于 on-policy distillation(OPD)原则,PRISM 将 alignment 建模为 policy 与 Mixture-of-Experts(MoE)discriminator 之间的黑盒、response-level adversarial game;该 discriminator 配备专门的 perception expert 和 reasoning expert,能够提供解耦的纠正信号,在不需要访问 teacher logits 的情况下引导 policy 朝监督分布靠拢。
尽管 1.26M 公开 demonstrations 足以用于广泛的 SFT 初始化,distribution alignment 仍需要更高保真的监督;因此,我们额外从 Gemini 3 Flash 构建了 113K demonstrations,覆盖最难的未解问题,并包含密集 visual grounding 与逐步推理。基于 Qwen3-VL 的实验表明,PRISM 在多种 RL 算法(GRPO、DAPO、GSPO)和多样化多模态 benchmark 上都能稳定提升下游 RLVR 性能;相比 SFT-to-RLVR baseline,4B 和 8B 模型的平均准确率分别提升 +4.4 和 +6.0 个百分点。我们的代码、数据和模型 checkpoint 已公开发布于 https://github.com/XIAO4579/PRISM。