Hugging Face · Daily Papers
新时代的视觉生成:从原子映射到 Agentic 世界建模的演进
Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
摘要
近期的视觉生成模型在 photorealism(照片级真实感)、typography(文字排版)、指令遵循和交互式编辑方面取得了重要进展,但在空间推理、持久状态、长程一致性和因果理解方面仍然存在困难。我们认为,该领域应当超越外观合成,迈向智能视觉生成:生成由结构、动态、领域知识和因果关系支撑的合理视觉内容。
为刻画这一转变,我们提出了一个五级 taxonomy(分类体系):Atomic Generation、Conditional Generation、In-Context Generation、Agentic Generation 和 World-Modeling Generation,表示从被动渲染器逐步发展为具备交互性、agentic(智能体式)能力和世界感知能力的生成器。我们分析了关键技术驱动因素,包括 flow matching、统一的理解与生成模型、改进的视觉表示、post-training、reward modeling、数据整理、synthetic data distillation,以及采样加速。
进一步地,我们指出,当前评测往往强调感知质量,而忽视结构、时间和因果层面的失败,因此常常高估实际进展。通过结合 benchmark 综述、真实场景压力测试,以及受专家约束的案例研究,本文路线图提供了一种以能力为中心的视角,用于理解、评估并推进下一代智能视觉生成系统。