Hugging Face · Daily Papers

探究图像编辑模型的视觉规划

Probing Visual Planning in Image Editing Models

Zhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma

二〇二六年五月八日 · arXiv:2604.22868 · PDF · Code

摘要

视觉规划是人类智能的关键方面，尤其体现在需要复杂空间推理与导航的任务中。然而在机器学习中，这一本质上属于视觉的问题，常常通过以语言为中心的视角来处理。尽管近期研究显示了完全视觉方法的潜力，但由于采用逐步 planning-by-generation（通过生成进行规划）的范式，它们存在明显的计算效率问题。本文提出 EAR，即 editing-as-reasoning（以编辑作为推理）的范式，将视觉规划重新表述为单步图像转换。

为将内在推理能力与视觉识别能力分离，我们采用抽象谜题作为探测任务，并引入 AMAZE，这是一个程序化生成的数据集，包含经典的 Maze 和 Queen 问题，覆盖了不同且互补的视觉规划形式。AMAZE 的抽象特性也便于从像素级保真度和逻辑有效性两个方面，对 autoregressive 和 diffusion-based 模型进行自动评估。

我们评估了领先的闭源和开源编辑模型。结果表明，它们在 zero-shot 设置下都表现吃力；在基础规模上进行 finetuning 后，模型能够显著泛化到更大的域内规模，以及域外规模和几何结构。然而，即便我们在高端硬件上运行的最佳模型，也无法达到人类解题者的 zero-shot 效率，这凸显了神经视觉推理中依然存在的差距。