Hugging Face · Daily Papers

新时代的视觉生成：从原子映射到 Agentic 世界建模的演进

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Keming Wu, Zuhao Yang, Kaichen Zhang, Shizun Wang, Haowei Zhu, Sicong Leng, Zhongyu Yang, Qijie Wang 等 27 位

二〇二六年五月一日 · arXiv:2604.28185 · PDF

摘要

近期的视觉生成模型在 photorealism（照片级真实感）、typography（文字排版）、指令遵循和交互式编辑方面取得了重要进展，但在空间推理、持久状态、长程一致性和因果理解方面仍然存在困难。我们认为，该领域应当超越外观合成，迈向智能视觉生成：生成由结构、动态、领域知识和因果关系支撑的合理视觉内容。

为刻画这一转变，我们提出了一个五级 taxonomy（分类体系）：Atomic Generation、Conditional Generation、In-Context Generation、Agentic Generation 和 World-Modeling Generation，表示从被动渲染器逐步发展为具备交互性、agentic（智能体式）能力和世界感知能力的生成器。我们分析了关键技术驱动因素，包括 flow matching、统一的理解与生成模型、改进的视觉表示、post-training、reward modeling、数据整理、synthetic data distillation，以及采样加速。

进一步地，我们指出，当前评测往往强调感知质量，而忽视结构、时间和因果层面的失败，因此常常高估实际进展。通过结合 benchmark 综述、真实场景压力测试，以及受专家约束的案例研究，本文路线图提供了一种以能力为中心的视角，用于理解、评估并推进下一代智能视觉生成系统。