一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

Stream-R1:面向流式视频生成的可靠性-困惑度感知奖励蒸馏

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Bin Wu, Mengqi Huang, Shaojin Wu, Weinan Jia, Yuxin Wang, Zhendong Mao, Yongdong Zhang
来自 FrameX-AI
二〇二六年五月七日 · arXiv:2605.03849 · PDF · Code

基于 distillation(蒸馏)的加速已成为让 autoregressive streaming video diffusion models(自回归流式视频 diffusion models)具备实用性的基础方法,其中 distribution matching distillation(DMD)已是事实上的默认选择。然而,现有方法会不加区分地训练 student 去匹配 teacher 的输出,将每次 rollout、每一帧、每个像素都视为同等可靠的监督信号。我们认为,这限制了 distilled quality,因为它忽略了 DMD 监督中两个互补的方差维度:一是 student rollouts 之间的 Inter-Reliability,其监督可靠性存在差异;二是空间区域和时间帧之间的 Intra-Perplexity,它们对质量仍可改进之处的贡献并不相同。因此,该目标在统一权重下混淆了两个问题:是否应从每次 rollout 中学习,以及应在其中哪些位置集中优化。

为解决这一问题,我们提出 Stream-R1,一个 Reliability-Perplexity Aware Reward Distillation 框架,通过单一的共享 reward 引导机制,在 rollout 层面和时空元素层面对 distillation objective 进行自适应重加权。在 Inter-Reliability 层面,Stream-R1 使用预训练 video reward score 的指数值来重新缩放每次 rollout 的 loss,使具有可靠监督的 rollout 主导优化。在 Intra-Perplexity 层面,它对同一 reward model 进行 back-propagation,以提取逐像素 gradient saliency,并将其分解为空间权重和时间权重,从而把优化压力集中在预期改进收益最大的区域和帧上。一个自适应平衡机制可防止任一质量轴在 visual quality、motion quality 和 text alignment 之间占据主导。Stream-R1 在标准 streaming video generation benchmarks 上,相较于 distillation baselines 在这三个维度上都取得了稳定改进,且无需修改 architecture,也不增加 inference cost。

译自 Hugging Face · Daily Papers · arXiv:2605.03849 · 录于 二〇二六年五月七日