Hugging Face · Daily Papers

Stream-T1：用于流式视频生成的 Test-Time Scaling

Stream-T1: Test-Time Scaling for Streaming Video Generation

Yijing Tu, Shaojin Wu, Mengqi Huang, Wenchuan Wang, Yuxin Wang, Chunxiao Liu, Zhendong Mao

来自 FrameX-AI

二〇二六年五月七日 · arXiv:2605.04461 · PDF · Code

摘要

虽然 Test-Time Scaling (TTS) 为在不显著增加训练成本的情况下提升视频生成效果提供了有前景的方向，但当前基于 diffusion models 的 test-time 视频生成方法面临候选探索成本过高、缺乏时间指导等问题。为解决这些结构性瓶颈，我们提出将重点转向 streaming video generation。我们发现，其 chunk 级合成方式和较少的 denoising 步数天然适合 TTS，能够显著降低计算开销，同时实现细粒度的时间控制。

基于这一洞察，我们提出了 Stream-T1，这是一个专为 streaming video generation 设计的早期全面 TTS 框架。具体而言，Stream-T1 由三个单元组成：(1) Stream-Scaled Noise Propagation：利用历史上已验证的高质量前序 chunk noise，主动细化待生成 chunk 的初始 latent noise，从而有效建立时间依赖，并利用历史 Gaussian prior 引导当前生成；(2) Stream-Scaled Reward Pruning：通过结合即时短期评估与基于 sliding window 的长期评估，对生成候选进行全面评价，在局部空间美感与全局时间一致性之间取得最佳平衡；(3) Stream-Scaled Memory Sinking：在 reward feedback 的引导下，将从 KV-cache 中被移出的 context 动态路由到不同的更新路径，确保此前生成的视觉信息能够有效锚定并引导后续视频流。

在 5s 和 30s 综合视频 benchmark 上的评估表明，Stream-T1 表现出显著优势，在时间一致性、运动平滑性和帧级视觉质量方面均有明显提升。