Hugging Face · Daily Papers
探究图像编辑模型的视觉规划
Probing Visual Planning in Image Editing Models
摘要
视觉规划是人类智能的关键方面,尤其体现在需要复杂空间推理与导航的任务中。然而在机器学习中,这一本质上属于视觉的问题,常常通过以语言为中心的视角来处理。尽管近期研究显示了完全视觉方法的潜力,但由于采用逐步 planning-by-generation(通过生成进行规划)的范式,它们存在明显的计算效率问题。本文提出 EAR,即 editing-as-reasoning(以编辑作为推理)的范式,将视觉规划重新表述为单步图像转换。
为将内在推理能力与视觉识别能力分离,我们采用抽象谜题作为探测任务,并引入 AMAZE,这是一个程序化生成的数据集,包含经典的 Maze 和 Queen 问题,覆盖了不同且互补的视觉规划形式。AMAZE 的抽象特性也便于从像素级保真度和逻辑有效性两个方面,对 autoregressive 和 diffusion-based 模型进行自动评估。
我们评估了领先的闭源和开源编辑模型。结果表明,它们在 zero-shot 设置下都表现吃力;在基础规模上进行 finetuning 后,模型能够显著泛化到更大的域内规模,以及域外规模和几何结构。然而,即便我们在高端硬件上运行的最佳模型,也无法达到人类解题者的 zero-shot 效率,这凸显了神经视觉推理中依然存在的差距。