Hugging Face · Daily Papers

使用预测式潜变量进行视频生成

Video Generation with Predictive Latents

Yian Zhao, Feng Wang, Qiushan Guo, Chang Liu, Xiangyang Ji, Jian Zhang, Jie Chen

来自 ByteDance Seed

二〇二六年五月六日 · arXiv:2605.02134 · PDF

摘要

Video Variational Autoencoder (VAE) 通过将视觉世界映射到紧凑的时空 latent space，支持 latent video generative modeling，从而提升训练效率与稳定性。尽管现有 video VAE 已能实现较好的重建质量，但持续优化重建效果并不一定会转化为更好的生成性能。如何提升 video latent 的 diffusability，仍是一个关键且尚未解决的挑战。

在本文中，受 predictive world modeling 原理启发，我们研究了 predictive learning 提升 video generative modeling 的潜力。为此，我们提出了一种简单而有效的 predictive reconstruction objective，将 predictive learning 与 video reconstruction 统一起来。具体而言，我们随机丢弃未来帧，仅编码部分过去观测，同时训练 decoder 同时重建已观测帧并预测未来帧。该设计促使 latent space 编码具有时间预测性的结构，并形成对视频动态更连贯的理解，从而提升生成质量。

我们将模型称为 Predictive Video VAE (PV-VAE)。在 video generation 上，PV-VAE 取得了更优性能：在 UCF101 上，相比 Wan2.2 VAE 收敛速度提升 52%，FVD 改善 34.42。此外，全面分析表明，PV-VAE 不仅具有良好的 scalability，其生成性能会随着 VAE 训练而提升，还能在下游 video understanding 任务中带来稳定增益，说明其 latent space 能有效捕捉 temporal coherence 与 motion priors。