一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

用于高效自回归视频生成的运动感知缓存

Motion-Aware Caching for Efficient Autoregressive Video Generation

Jing Xu, Yuexiao Ma, Songwei Liu, Xuzhe Zheng, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji 等 10 位
二〇二六年五月五日 · arXiv:2605.01725 · PDF · Code

自回归视频生成范式在长视频合成方面具有理论潜力,但其实际部署受限于顺序迭代 denoising 带来的计算负担。cache 复用策略可以通过跳过冗余的 denoising 步骤来加速生成,但现有方法依赖粗粒度的 chunk 级跳过,无法捕捉细粒度的像素动态。这一缺陷很关键:高运动像素需要更多 denoising 步骤以防止误差累积,而静态像素则可以承受更激进的跳过。

我们从理论上形式化了这一洞察,将 cache 误差与残差不稳定性联系起来,并提出 MotionCache:一个 motion-aware(运动感知)的 cache 框架,利用帧间差异作为像素级运动特征的轻量级代理。MotionCache 采用由粗到细的策略:先通过初始 warm-up 阶段建立语义一致性,随后进行运动加权的 cache 复用,并按 token 动态调整更新频率。

在 SkyReels-V2 和 MAGI-1 等 state-of-the-art 模型上的大量实验表明,MotionCache 分别实现了 6.28times 和 1.64times 的显著加速,同时有效保持了生成质量(VBench:分别为 1%downarrow 和 0.01%downarrow)。代码见 https://github.com/ywlq/MotionCache。

译自 Hugging Face · Daily Papers · arXiv:2605.01725 · 录于 二〇二六年五月五日