apple-ml-research

STARFlow-V：基于 Normalizing Flows 的端到端视频生成建模

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows

二〇二六年五月八日 · 英文原文

摘要

该工作重新审视视频生成中的 normalizing flows（NFs），提出 STARFlow-V。相比当前主要依赖 diffusion 的 SOTA 视频系统，该模型基于 likelihood 端到端学习，面向时空复杂视频数据，支持因果预测与原生 likelihood 估计。

Normalizing flows（NFs）是面向连续数据的端到端、基于 likelihood 的生成模型，近期随着图像生成方面取得有希望的进展而重新受到关注。然而在视频生成领域，由于时空复杂性和计算成本显著更高，当前 SOTA 系统几乎完全依赖基于 diffusion 的模型。在这项工作中，我们重新审视这一设计空间，提出 STARFlow-V：一种基于 normalizing flow 的视频生成器，具备端到端学习、稳健的因果预测以及原生 likelihood 估计等实质性优势……

译自 apple-ml-research · 录于二〇二六年五月八日