Causal Forcing++：面向实时交互视频生成的可扩展少步自回归扩散蒸馏

Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

Min Zhao, Hongzhou Zhu, Kaiwen Zheng, Zihan Zhou, Bokai Yan, Xinyuan Li, Xiao Yang, Chongxuan Li 等 9 位

来自 Tsinghua Machine Learning Group

二〇二六年五月十五日 · arXiv:2605.15141 · PDF

摘要

实时交互式视频生成需要低延迟、流式处理和可控的展开。现有的自回归（AR）扩散蒸馏方法通过将双向基模型蒸馏为少步AR学生模型，在分块4步机制下取得了显著成果，但仍受限于粗粒度的响应粒度和不可忽略的采样延迟。本文研究了一种更具挑战性的设置：帧级自回归，仅需1-2步采样。在此机制下，我们发现少步AR学生模型的初始化是关键瓶颈：现有策略要么与目标不对齐，要么无法实现少步生成，要么扩展成本过高。我们提出Causal Forcing++，一种原理性且可扩展的流水线，利用因果一致性蒸馏（causal CD）进行少步AR初始化。核心思想是：因果CD学习与因果ODE蒸馏相同的AR条件流映射，但通过相邻时间步之间的单个在线教师ODE步骤获得监督，从而避免预计算和存储完整PF-ODE轨迹的需求。这使得初始化既更高效又更易优化。由此产生的流水线\ours在帧级2步设置下，在VBench Total上超越SOTA分块4步Causal Forcing 0.1，在VBench Quality上超越0.3，在VisionReward上超越0.335，同时将首帧延迟降低50%，并将Stage 2训练成本降低约4倍。我们进一步将流水线扩展到以动作为条件的世界模型生成，遵循Genie3的理念。项目页面：https://github.com/thu-ml/Causal-Forcing 和 https://github.com/shengshu-ai/minWM。

译自 Hugging Face · Daily Papers · arXiv:2605.15141 · 录于二〇二六年五月十五日