Hugging Face · Daily Papers

Diffusion Models 何时学会生成多个对象？

When Do Diffusion Models learn to Generate Multiple Objects?

Yujin Jeong, Arnas Uselis, Iro Laina, Seong Joon Oh, Anna Rohrbach

二〇二六年五月四日 · arXiv:2605.00273 · PDF · Code

摘要

Text-to-image diffusion model 在视觉保真度上表现突出，但在多 object 生成中仍不可靠。尽管大量实证证据显示了这些失败案例，其根本原因仍不清楚。我们首先追问：这种局限性有多大程度源于数据本身。为解耦数据因素，我们在不同 dataset size 下考察两种设定：(1) concept generalization，即每个单独 concept 都在训练中被观察到，但数据分布可能不均衡；(2) compositional generalization，即特定的 concept 组合被系统性地留出。

为研究这些设定，我们提出 mosaic（Multi-Object Spatial relations, AttrIbution, Counting），一个用于 dataset 生成的受控框架。通过在 mosaic 上训练 diffusion model，我们发现，scene complexity 起主导作用，而不是 concept imbalance；并且在 low-data regime 中，counting 是一种特别难以学习的能力。此外，随着训练中被留出的 concept 组合增多，compositional generalization 会崩塌。这些发现揭示了 diffusion model 的基本局限，并促使人们为稳健的多 object compositional generation 设计更强的 inductive bias 和数据方案。