一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

World2Minecraft:占用驱动的模拟场景构建

World2Minecraft: Occupancy-Driven Simulated Scenes Construction

Lechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan
二〇二六年五月一日 · arXiv:2604.27578 · PDF · Code

具身智能需要高保真 simulation 环境来支持感知与决策,但现有平台往往存在数据污染和灵活性有限的问题。为缓解这一问题,我们提出 World2Minecraft,基于 3D semantic occupancy prediction 将真实世界场景转换为结构化的 Minecraft 环境。在重建后的场景中,我们可以轻松执行 Vision-Language Navigation(VLN)等下游任务。

然而,我们观察到,重建质量高度依赖准确的 occupancy prediction,而现有模型仍受限于数据稀缺和泛化能力不足。为此,我们提出一套低成本、自动化且可扩展的数据采集流程,用于创建定制化 occupancy 数据集,并通过 MinecraftOcc 验证其有效性。MinecraftOcc 是一个大规模数据集,包含来自 156 个细节丰富的室内场景的 100,165 张图像。

大量实验表明,我们的数据集为现有数据集提供了关键补充,并对当前 SOTA 方法构成了显著挑战。这些发现有助于改进 occupancy prediction,并凸显了 World2Minecraft 作为可定制、可编辑平台在个性化 embodied AI 研究中的价值。项目页面:https://world2minecraft.github.io/.

译自 Hugging Face · Daily Papers · arXiv:2604.27578 · 录于 二〇二六年五月一日