Hugging Face · Daily Papers

超越 SFT-to-RL：通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu, Chaojun Xiao, Chen Chen 等 12 位

来自 HKUSTGZ

二〇二六年五月六日 · arXiv:2604.28123 · PDF · Code

摘要

大型多模态模型（LMMs）的标准后训练流程通常是在精选 demonstrations 上进行 supervised fine-tuning（SFT），随后使用 verifiable rewards 进行 reinforcement learning（RLVR）。然而，SFT 会引入 distributional drift，既无法保持模型原有能力，也无法忠实匹配监督分布。在多模态推理中，这一问题会进一步放大，因为 perception errors 和 reasoning failures 遵循不同的漂移模式，并会在后续 RL 过程中相互叠加。

我们提出 PRISM，这是一个三阶段 pipeline，通过在 SFT 与 RLVR 之间插入显式的 distribution-alignment 阶段来缓解这种漂移。基于 on-policy distillation（OPD）原则，PRISM 将 alignment 建模为 policy 与 Mixture-of-Experts（MoE）discriminator 之间的黑盒、response-level adversarial game；该 discriminator 配备专门的 perception expert 和 reasoning expert，能够提供解耦的纠正信号，在不需要访问 teacher logits 的情况下引导 policy 朝监督分布靠拢。

尽管 1.26M 公开 demonstrations 足以用于广泛的 SFT 初始化，distribution alignment 仍需要更高保真的监督；因此，我们额外从 Gemini 3 Flash 构建了 113K demonstrations，覆盖最难的未解问题，并包含密集 visual grounding 与逐步推理。基于 Qwen3-VL 的实验表明，PRISM 在多种 RL 算法（GRPO、DAPO、GSPO）和多样化多模态 benchmark 上都能稳定提升下游 RLVR 性能；相比 SFT-to-RLVR baseline，4B 和 8B 模型的平均准确率分别提升 +4.4 和 +6.0 个百分点。我们的代码、数据和模型 checkpoint 已公开发布于 https://github.com/XIAO4579/PRISM。