LongLive-2.0：面向长视频生成的NVFP4并行基础设施

LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

Yukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao 等 16 位

来自 NVIDIA

二〇二六年五月十九日 · arXiv:2605.18739 · PDF · Code

摘要

我们提出 LongLive-2.0，一个基于 NVFP4 的并行基础设施，覆盖长视频生成的完整训练与推理流程，旨在解决速度和内存瓶颈。在训练方面，我们引入了序列并行自回归（AR）训练，具体实现为 Balanced SP，其核心是将高效的教师强制（teacher-forcing）布局与 SP 执行协同设计：在每个 rank 上配对干净历史（clean-history）和含噪目标（noisy-target）时间块，从而在 SP 感知的分块 VAE 编码下实现自然的教师强制掩码。结合 NVFP4 精度，该方案降低了训练中的 GPU 内存开销，并加速了 GEMM 计算——随着视频长度增加，GEMM 计算占比也随之上升。此外，我们证明高质量的基础设施和数据集能够实现极为简洁的训练流程。与现有依赖 ODE 初始化及后续分布匹配蒸馏（DMD）的 Self-Forcing 系列方法不同，LongLive-2.0 直接将扩散模型微调为长视频、多镜头、交互式自回归（AR）扩散模型，并可进一步通过独立的 LoRA 权重转换为实时生成（4 到 2 步去噪）。在 Blackwell GPU 推理方面，我们实现了 W4A4 NVFP4 推理，将 KV 缓存量化为 NVFP4 以节省内存，并通过异步流式 VAE 解码提升端到端吞吐量。在非 Blackwell GPU 架构上，我们部署 SP 推理以匹配 Blackwell GPU 的速度，同时量化后的 KV 缓存可降低 SP 的 GPU 间通信开销。实验表明，训练速度提升最高达 2.15 倍，推理速度提升最高达 1.84 倍。LongLive-2.0-5B 在实现 45.7 FPS 推理速度的同时，在基准测试上取得了强劲性能。据我们所知，LongLive-2.0 是首个面向长视频生成的 NVFP4 训练与推理系统。

译自 Hugging Face · Daily Papers · arXiv:2605.18739 · 录于二〇二六年五月十九日