Hugging Face · Daily Papers

AnyFlow: 基于同策略流图蒸馏的任意步视频扩散模型

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

Yuchao Gu, Guian Fang, Yuxin Jiang, Weijia Mao, Song Han, Han Cai, Mike Zheng Shou

来自 NVIDIA

二〇二六年五月十四日 · arXiv:2605.13724 · PDF · Code

摘要

少步视频生成通过一致性蒸馏（consistency distillation）取得了显著进展。然而，一致性蒸馏模型在测试时分配更多采样步数时，性能往往会下降，这限制了其在任意步数视频扩散中的有效性。这一局限源于一致性蒸馏将原始概率流ODE轨迹替换为一致性采样轨迹，从而削弱了ODE采样在测试时随步数扩展的理想行为。为解决这一问题，我们提出AnyFlow——首个基于流映射（flow map）的任意步数视频扩散蒸馏框架。AnyFlow并非仅针对少数固定采样步数进行模型蒸馏，而是优化完整的ODE采样轨迹。为此，我们将蒸馏目标从端点一致性映射（z_{t}rightarrow z_{0}）转变为任意时间间隔上的流映射转移学习（z_{t}rightarrow z_{r}）。我们进一步提出流映射反向模拟（Flow Map Backward Simulation），将完整的Euler展开分解为捷径流映射转移，从而实现高效的策略内蒸馏（on-policy distillation），减少测试时误差（即少步采样中的离散化误差和因果生成中的曝光偏差）。在双向架构和因果架构上，从1.3B到14B参数规模的广泛实验表明，AnyFlow在少步场景下性能达到或超越基于一致性的方法，并能随采样步数预算扩展。