一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

Map2World:以分割图为条件的文本到 3D 世界生成

Map2World: Segment Map Conditioned Text to 3D World Generation

Jaeyoung Chung, Suyoung Lee, Jianfeng Xiang, Jiaolong Yang, Kyoung Mu Lee
二〇二六年五月四日 · arXiv:2605.00781 · PDF

3D world generation 对沉浸式内容创作、自动驾驶仿真等应用至关重要。近期 3D world generation 的进展已显示出较好的结果;然而,这些方法受限于网格布局,并且在整个世界范围内存在 object scale 不一致的问题。

在本文中,我们提出一种新的框架 Map2World,首次支持基于用户定义的任意形状与尺度的 segment map 来生成 3D world,从而在大范围环境中保证全局尺度一致性与灵活性。为进一步提升质量,我们提出 detail enhancer network,用于生成世界的精细细节。该 detail enhancer 通过引入全局结构信息,在不破坏整体场景一致性的前提下添加细粒度细节。

我们设计的整个 pipeline 利用了 asset generator 的强先验,使其即使在 scene generation 训练数据有限的情况下,也能在多样化领域中实现稳健泛化。大量实验表明,我们的方法在用户可控性、尺度一致性和内容连贯性方面显著优于现有方法,使用户能够在更复杂的条件下生成 3D worlds。

译自 Hugging Face · Daily Papers · arXiv:2605.00781 · 录于 二〇二六年五月四日