Causal Forcing++:面向实时交互视频生成的可扩展少步自回归扩散蒸馏
Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation
实时交互式视频生成需要低延迟、流式处理和可控的展开。现有的自回归(AR)扩散蒸馏方法通过将双向基模型蒸馏为少步AR学生模型,在分块4步机制下取得了显著成果,但仍受限于粗粒度的响应粒度和不可忽略的采样延迟。本文研究了一种更具挑战性的设置:帧级自回归,仅需1-2步采样。在此机制下,我们发现少步AR学生模型的初始化是关键瓶颈:现有策略要么与目标不对齐,要么无法实现少步生成,要么扩展成本过高。我们提出Causal Forcing++,一种原理性且可扩展的流水线,利用因果一致性蒸馏(causal CD)进行少步AR初始化。核心思想是:因果CD学习与因果ODE蒸馏相同的AR条件流映射,但通过相邻时间步之间的单个在线教师ODE步骤获得监督,从而避免预计算和存储完整PF-ODE轨迹的需求。这使得初始化既更高效又更易优化。由此产生的流水线\ours在帧级2步设置下,在VBench Total上超越SOTA分块4步Causal Forcing 0.1,在VBench Quality上超越0.3,在VisionReward上超越0.335,同时将首帧延迟降低50%,并将Stage 2训练成本降低约4倍。我们进一步将流水线扩展到以动作为条件的世界模型生成,遵循Genie3的理念。项目页面:https://github.com/thu-ml/Causal-Forcing 和 https://github.com/shengshu-ai/minWM。