一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

使用预测式潜变量进行视频生成

Video Generation with Predictive Latents

Yian Zhao, Feng Wang, Qiushan Guo, Chang Liu, Xiangyang Ji, Jian Zhang, Jie Chen
来自 ByteDance Seed
二〇二六年五月六日 · arXiv:2605.02134 · PDF

Video Variational Autoencoder (VAE) 通过将视觉世界映射到紧凑的时空 latent space,支持 latent video generative modeling,从而提升训练效率与稳定性。尽管现有 video VAE 已能实现较好的重建质量,但持续优化重建效果并不一定会转化为更好的生成性能。如何提升 video latent 的 diffusability,仍是一个关键且尚未解决的挑战。

在本文中,受 predictive world modeling 原理启发,我们研究了 predictive learning 提升 video generative modeling 的潜力。为此,我们提出了一种简单而有效的 predictive reconstruction objective,将 predictive learning 与 video reconstruction 统一起来。具体而言,我们随机丢弃未来帧,仅编码部分过去观测,同时训练 decoder 同时重建已观测帧并预测未来帧。该设计促使 latent space 编码具有时间预测性的结构,并形成对视频动态更连贯的理解,从而提升生成质量。

我们将模型称为 Predictive Video VAE (PV-VAE)。在 video generation 上,PV-VAE 取得了更优性能:在 UCF101 上,相比 Wan2.2 VAE 收敛速度提升 52%,FVD 改善 34.42。此外,全面分析表明,PV-VAE 不仅具有良好的 scalability,其生成性能会随着 VAE 训练而提升,还能在下游 video understanding 任务中带来稳定增益,说明其 latent space 能有效捕捉 temporal coherence 与 motion priors。

译自 Hugging Face · Daily Papers · arXiv:2605.02134 · 录于 二〇二六年五月六日