Hugging Face · Daily Papers

LongLive-2.0:面向长视频生成的NVFP4并行基础设施

LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

Yukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao 等 16 位
来自 NVIDIA
二〇二六年五月十九日 · arXiv:2605.18739 · PDF · Code

我们提出 LongLive-2.0,一个基于 NVFP4 的并行基础设施,覆盖长视频生成的完整训练与推理流程,旨在解决速度和内存瓶颈。在训练方面,我们引入了序列并行自回归(AR)训练,具体实现为 Balanced SP,其核心是将高效的教师强制(teacher-forcing)布局与 SP 执行协同设计:在每个 rank 上配对干净历史(clean-history)和含噪目标(noisy-target)时间块,从而在 SP 感知的分块 VAE 编码下实现自然的教师强制掩码。结合 NVFP4 精度,该方案降低了训练中的 GPU 内存开销,并加速了 GEMM 计算——随着视频长度增加,GEMM 计算占比也随之上升。此外,我们证明高质量的基础设施和数据集能够实现极为简洁的训练流程。与现有依赖 ODE 初始化及后续分布匹配蒸馏(DMD)的 Self-Forcing 系列方法不同,LongLive-2.0 直接将扩散模型微调为长视频、多镜头、交互式自回归(AR)扩散模型,并可进一步通过独立的 LoRA 权重转换为实时生成(4 到 2 步去噪)。在 Blackwell GPU 推理方面,我们实现了 W4A4 NVFP4 推理,将 KV 缓存量化为 NVFP4 以节省内存,并通过异步流式 VAE 解码提升端到端吞吐量。在非 Blackwell GPU 架构上,我们部署 SP 推理以匹配 Blackwell GPU 的速度,同时量化后的 KV 缓存可降低 SP 的 GPU 间通信开销。实验表明,训练速度提升最高达 2.15 倍,推理速度提升最高达 1.84 倍。LongLive-2.0-5B 在实现 45.7 FPS 推理速度的同时,在基准测试上取得了强劲性能。据我们所知,LongLive-2.0 是首个面向长视频生成的 NVFP4 训练与推理系统。

译自 Hugging Face · Daily Papers · arXiv:2605.18739 · 录于 二〇二六年五月十九日