Hugging Face · Daily Papers

用于高效自回归视频生成的运动感知缓存

Motion-Aware Caching for Efficient Autoregressive Video Generation

Jing Xu, Yuexiao Ma, Songwei Liu, Xuzhe Zheng, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji 等 10 位

二〇二六年五月五日 · arXiv:2605.01725 · PDF · Code

摘要

自回归视频生成范式在长视频合成方面具有理论潜力，但其实际部署受限于顺序迭代 denoising 带来的计算负担。cache 复用策略可以通过跳过冗余的 denoising 步骤来加速生成，但现有方法依赖粗粒度的 chunk 级跳过，无法捕捉细粒度的像素动态。这一缺陷很关键：高运动像素需要更多 denoising 步骤以防止误差累积，而静态像素则可以承受更激进的跳过。

我们从理论上形式化了这一洞察，将 cache 误差与残差不稳定性联系起来，并提出 MotionCache：一个 motion-aware（运动感知）的 cache 框架，利用帧间差异作为像素级运动特征的轻量级代理。MotionCache 采用由粗到细的策略：先通过初始 warm-up 阶段建立语义一致性，随后进行运动加权的 cache 复用，并按 token 动态调整更新频率。

在 SkyReels-V2 和 MAGI-1 等 state-of-the-art 模型上的大量实验表明，MotionCache 分别实现了 6.28times 和 1.64times 的显著加速，同时有效保持了生成质量（VBench：分别为 1%downarrow 和 0.01%downarrow）。代码见 https://github.com/ywlq/MotionCache。