一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

探究图像编辑模型的视觉规划

Probing Visual Planning in Image Editing Models

Zhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma
二〇二六年五月八日 · arXiv:2604.22868 · PDF · Code

视觉规划是人类智能的关键方面,尤其体现在需要复杂空间推理与导航的任务中。然而在机器学习中,这一本质上属于视觉的问题,常常通过以语言为中心的视角来处理。尽管近期研究显示了完全视觉方法的潜力,但由于采用逐步 planning-by-generation(通过生成进行规划)的范式,它们存在明显的计算效率问题。本文提出 EAR,即 editing-as-reasoning(以编辑作为推理)的范式,将视觉规划重新表述为单步图像转换。

为将内在推理能力与视觉识别能力分离,我们采用抽象谜题作为探测任务,并引入 AMAZE,这是一个程序化生成的数据集,包含经典的 Maze 和 Queen 问题,覆盖了不同且互补的视觉规划形式。AMAZE 的抽象特性也便于从像素级保真度和逻辑有效性两个方面,对 autoregressive 和 diffusion-based 模型进行自动评估。

我们评估了领先的闭源和开源编辑模型。结果表明,它们在 zero-shot 设置下都表现吃力;在基础规模上进行 finetuning 后,模型能够显著泛化到更大的域内规模,以及域外规模和几何结构。然而,即便我们在高端硬件上运行的最佳模型,也无法达到人类解题者的 zero-shot 效率,这凸显了神经视觉推理中依然存在的差距。

译自 Hugging Face · Daily Papers · arXiv:2604.22868 · 录于 二〇二六年五月八日