增强无训练无限帧生成以实现一致长视频

Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

X. Feng, J. Zhu, M. Wu, C. Chen, F. Mao, H. Guo, J. Wu, X. Chu 等 9 位

来自 alibaba-inc

二〇二六年五月二十一日 · arXiv:2605.18233 · PDF

摘要

在不引入显著计算开销的前提下，免训练长视频生成旨在让基础视频生成模型能够生成长度更长的视频。帧级自回归框架（例如 FIFO-diffusion）具有在恒定内存消耗下生成无限长视频的优势。然而，训练与推理之间的不匹配，以及维持长期一致性的挑战，限制了基础模型的有效利用。为缓解这些问题，我们提出 MIGA，一种新颖的无限帧长视频生成方法。首先，我们提出一种有效的两阶段对齐机制，通过减少输入模型的噪声跨度来缩小训练-推理差距。随后，我们引入一种创新的双重一致性增强机制：自反思方法修正早期高噪声帧，而长程帧引导方法利用后期覆盖范围广的低噪声帧来引导生成，共同提升时间一致性。在 VBench 和 NarrLV 上的大量实验表明，MIGA 达到了最先进的性能。我们的项目页面位于 https://xiaokunfeng.github.io/miga_homepage/。

译自 Hugging Face · Daily Papers · arXiv:2605.18233 · 录于二〇二六年五月二十一日