Hugging Face · Daily Papers

Map2World：以分割图为条件的文本到 3D 世界生成

Map2World: Segment Map Conditioned Text to 3D World Generation

Jaeyoung Chung, Suyoung Lee, Jianfeng Xiang, Jiaolong Yang, Kyoung Mu Lee

二〇二六年五月四日 · arXiv:2605.00781 · PDF

摘要

3D world generation 对沉浸式内容创作、自动驾驶仿真等应用至关重要。近期 3D world generation 的进展已显示出较好的结果；然而，这些方法受限于网格布局，并且在整个世界范围内存在 object scale 不一致的问题。

在本文中，我们提出一种新的框架 Map2World，首次支持基于用户定义的任意形状与尺度的 segment map 来生成 3D world，从而在大范围环境中保证全局尺度一致性与灵活性。为进一步提升质量，我们提出 detail enhancer network，用于生成世界的精细细节。该 detail enhancer 通过引入全局结构信息，在不破坏整体场景一致性的前提下添加细粒度细节。

我们设计的整个 pipeline 利用了 asset generator 的强先验，使其即使在 scene generation 训练数据有限的情况下，也能在多样化领域中实现稳健泛化。大量实验表明，我们的方法在用户可控性、尺度一致性和内容连贯性方面显著优于现有方法，使用户能够在更复杂的条件下生成 3D worlds。