Hugging Face · Daily Papers

Flow-OPD：流匹配模型的在策略蒸馏

Flow-OPD: On-Policy Distillation for Flow Matching Models

Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen 等 11 位

二〇二六年五月十二日 · arXiv:2605.08063 · PDF · Code

摘要

现有Flow Matching（流匹配）文本到图像模型在多任务对齐下面临两个关键瓶颈：标量奖励导致的奖励稀疏性，以及联合优化异构目标时产生的梯度干扰，这共同引发了竞争指标的"跷跷板效应"和普遍的奖励破解现象。受大语言模型领域在线策略蒸馏（OPD）成功的启发，我们提出Flow-OPD，这是首个将在线策略蒸馏集成到Flow Matching模型中的统一后训练框架。Flow-OPD采用两阶段对齐策略：首先通过单奖励GRPO微调培育领域专精的教师模型，使每个专家在隔离状态下达到其性能上限；随后通过基于流的冷启动方案建立稳健的初始策略，并通过在线策略采样、任务路由标注和密集轨迹级监督的三步编排，将异构专业知识无缝整合到单个学生模型中。我们进一步引入流形锚点正则化（MAR），利用任务无关教师提供全数据监督，将生成过程锚定到高质量流形上，有效缓解纯RL驱动对齐中常见的美学退化问题。基于Stable Diffusion 3.5 Medium，Flow-OPD将GenEval分数从63提升至92，OCR准确率从59提升至94，整体性能较原始GRPO提升约10个百分点，同时保持图像保真度和人类偏好对齐，并展现出超越教师的涌现效应。这些结果确立了Flow-OPD作为构建通用文本到图像模型的可扩展对齐范式。