一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

HERMES++:迈向用于 3D 场景理解与生成的统一驾驶世界模型

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Xin Zhou, Dingkang Liang, Xiwu Chen, Feiyang Tan, Dingyuan Zhang, Hengshuang Zhao, Xiang Bai
来自 H-EmbodVis
二〇二六年五月七日 · arXiv:2604.28196 · PDF · Code

Driving world model 通过模拟环境动态,是 autonomous driving 的关键技术。然而,现有方法主要关注未来场景生成,往往忽视全面的 3D 场景理解。相反,尽管 Large Language Models(LLMs)展现出很强的推理能力,却缺乏预测未来几何演化的能力,从而在语义解释与物理模拟之间形成显著差距。为弥合这一差距,我们提出 HERMES++,一种统一的 driving world model,将 3D 场景理解与未来几何预测整合到单一框架中。

我们的方法通过协同设计来满足这些任务的不同需求。首先,BEV 表示将多视角空间信息整合为与 LLMs 兼容的结构。其次,我们引入 LLM-enhanced world queries,以促进来自理解分支的知识迁移。第三,我们设计 Current-to-Future Link 来弥合时间间隔,使几何演化以语义上下文为条件。最后,为保证结构完整性,我们采用 Joint Geometric Optimization 策略,将显式几何约束与隐式 latent regularization 结合,使内部表示与 geometry-aware 先验对齐。

在多个 benchmark 上的广泛评估验证了我们方法的有效性。HERMES++ 取得了很强的性能,在未来 point cloud 预测和 3D 场景理解任务中均优于 specialist 方法。模型和代码将在 https://github.com/H-EmbodVis/HERMESV2 公开发布。

译自 Hugging Face · Daily Papers · arXiv:2604.28196 · 录于 二〇二六年五月七日