Hugging Face · Daily Papers

D-OPSD：用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

Dengyang Jiang, Xin Jin, Dongyang Liu, Zanyi Wang, Mingzhe Zheng, Ruoyi Du, Xiangpeng Yang, Qilong Wu 等 12 位

来自 Tongyi-MAI

二〇二六年五月七日 · arXiv:2605.05204 · PDF · Code

摘要

高性能图像生成模型的格局正从低效的多步模型转向高效的少步模型（例如 Z-Image-Turbo 和 FLUX.2-klein）。然而，这些模型在直接进行连续 supervised fine-tuning 时面临显著挑战。例如，采用常用的 fine-tuning 技术会损害其固有的少步 inference 能力。为此，我们提出 D-OPSD，这是一种面向 step-distilled diffusion models 的新训练范式，可在 supervised fine-tuning 期间实现 on-policy learning。

我们首先发现，在现代 diffusion model 中，当 LLM/VLM 作为 encoder 时，模型可以继承其 encoder 的 in-context 能力。这使我们能够将训练设计为一个 on-policy self-distillation 过程。具体而言，在训练过程中，我们让模型在不同 context 下同时充当 teacher 和 student：student 仅以文本特征为条件，而 teacher 则以 text prompt 和目标图像的 multimodal feature 为条件。训练目标是在 student 自身的 roll-outs 上最小化两个预测分布之间的差异。

通过在模型自身的 trajectory 上、并在其自身 supervision 下进行优化，D-OPSD 使模型能够学习新的 concept、style 等，同时不牺牲原有的少步能力。