一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

Flow-OPD:流匹配模型的在策略蒸馏

Flow-OPD: On-Policy Distillation for Flow Matching Models

Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen 等 11 位
二〇二六年五月十二日 · arXiv:2605.08063 · PDF · Code

现有Flow Matching(流匹配)文本到图像模型在多任务对齐下面临两个关键瓶颈:标量奖励导致的奖励稀疏性,以及联合优化异构目标时产生的梯度干扰,这共同引发了竞争指标的"跷跷板效应"和普遍的奖励破解现象。受大语言模型领域在线策略蒸馏(OPD)成功的启发,我们提出Flow-OPD,这是首个将在线策略蒸馏集成到Flow Matching模型中的统一后训练框架。Flow-OPD采用两阶段对齐策略:首先通过单奖励GRPO微调培育领域专精的教师模型,使每个专家在隔离状态下达到其性能上限;随后通过基于流的冷启动方案建立稳健的初始策略,并通过在线策略采样、任务路由标注和密集轨迹级监督的三步编排,将异构专业知识无缝整合到单个学生模型中。我们进一步引入流形锚点正则化(MAR),利用任务无关教师提供全数据监督,将生成过程锚定到高质量流形上,有效缓解纯RL驱动对齐中常见的美学退化问题。基于Stable Diffusion 3.5 Medium,Flow-OPD将GenEval分数从63提升至92,OCR准确率从59提升至94,整体性能较原始GRPO提升约10个百分点,同时保持图像保真度和人类偏好对齐,并展现出超越教师的涌现效应。这些结果确立了Flow-OPD作为构建通用文本到图像模型的可扩展对齐范式。

译自 Hugging Face · Daily Papers · arXiv:2605.08063 · 录于 二〇二六年五月十二日