一声棒喝,本不立文字
偏要著録,已是二义

apple-ml-research

STARFlow-V:基于 Normalizing Flows 的端到端视频生成建模

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows

二〇二六年五月八日 · 英文原文

该工作重新审视视频生成中的 normalizing flows(NFs),提出 STARFlow-V。相比当前主要依赖 diffusion 的 SOTA 视频系统,该模型基于 likelihood 端到端学习,面向时空复杂视频数据,支持因果预测与原生 likelihood 估计。

Normalizing flows(NFs)是面向连续数据的端到端、基于 likelihood 的生成模型,近期随着图像生成方面取得有希望的进展而重新受到关注。然而在视频生成领域,由于时空复杂性和计算成本显著更高,当前 SOTA 系统几乎完全依赖基于 diffusion 的模型。在这项工作中,我们重新审视这一设计空间,提出 STARFlow-V:一种基于 normalizing flow 的视频生成器,具备端到端学习、稳健的因果预测以及原生 likelihood 估计等实质性优势……

译自 apple-ml-research · 录于 二〇二六年五月八日