Hugging Face · Daily Papers

Stream-R1：面向流式视频生成的可靠性-困惑度感知奖励蒸馏

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Bin Wu, Mengqi Huang, Shaojin Wu, Weinan Jia, Yuxin Wang, Zhendong Mao, Yongdong Zhang

来自 FrameX-AI

二〇二六年五月七日 · arXiv:2605.03849 · PDF · Code

摘要

基于 distillation（蒸馏）的加速已成为让 autoregressive streaming video diffusion models（自回归流式视频 diffusion models）具备实用性的基础方法，其中 distribution matching distillation（DMD）已是事实上的默认选择。然而，现有方法会不加区分地训练 student 去匹配 teacher 的输出，将每次 rollout、每一帧、每个像素都视为同等可靠的监督信号。我们认为，这限制了 distilled quality，因为它忽略了 DMD 监督中两个互补的方差维度：一是 student rollouts 之间的 Inter-Reliability，其监督可靠性存在差异；二是空间区域和时间帧之间的 Intra-Perplexity，它们对质量仍可改进之处的贡献并不相同。因此，该目标在统一权重下混淆了两个问题：是否应从每次 rollout 中学习，以及应在其中哪些位置集中优化。

为解决这一问题，我们提出 Stream-R1，一个 Reliability-Perplexity Aware Reward Distillation 框架，通过单一的共享 reward 引导机制，在 rollout 层面和时空元素层面对 distillation objective 进行自适应重加权。在 Inter-Reliability 层面，Stream-R1 使用预训练 video reward score 的指数值来重新缩放每次 rollout 的 loss，使具有可靠监督的 rollout 主导优化。在 Intra-Perplexity 层面，它对同一 reward model 进行 back-propagation，以提取逐像素 gradient saliency，并将其分解为空间权重和时间权重，从而把优化压力集中在预期改进收益最大的区域和帧上。一个自适应平衡机制可防止任一质量轴在 visual quality、motion quality 和 text alignment 之间占据主导。Stream-R1 在标准 streaming video generation benchmarks 上，相较于 distillation baselines 在这三个维度上都取得了稳定改进，且无需修改 architecture，也不增加 inference cost。