Hugging Face · Daily Papers
Diffusion Models 何时学会生成多个对象?
When Do Diffusion Models learn to Generate Multiple Objects?
摘要
Text-to-image diffusion model 在视觉保真度上表现突出,但在多 object 生成中仍不可靠。尽管大量实证证据显示了这些失败案例,其根本原因仍不清楚。我们首先追问:这种局限性有多大程度源于数据本身。为解耦数据因素,我们在不同 dataset size 下考察两种设定:(1) concept generalization,即每个单独 concept 都在训练中被观察到,但数据分布可能不均衡;(2) compositional generalization,即特定的 concept 组合被系统性地留出。
为研究这些设定,我们提出 mosaic(Multi-Object Spatial relations, AttrIbution, Counting),一个用于 dataset 生成的受控框架。通过在 mosaic 上训练 diffusion model,我们发现,scene complexity 起主导作用,而不是 concept imbalance;并且在 low-data regime 中,counting 是一种特别难以学习的能力。此外,随着训练中被留出的 concept 组合增多,compositional generalization 会崩塌。这些发现揭示了 diffusion model 的基本局限,并促使人们为稳健的多 object compositional generation 设计更强的 inductive bias 和数据方案。