Hugging Face · Daily Papers

HERMES++：迈向用于 3D 场景理解与生成的统一驾驶世界模型

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Xin Zhou, Dingkang Liang, Xiwu Chen, Feiyang Tan, Dingyuan Zhang, Hengshuang Zhao, Xiang Bai

来自 H-EmbodVis

二〇二六年五月七日 · arXiv:2604.28196 · PDF · Code

摘要

Driving world model 通过模拟环境动态，是 autonomous driving 的关键技术。然而，现有方法主要关注未来场景生成，往往忽视全面的 3D 场景理解。相反，尽管 Large Language Models（LLMs）展现出很强的推理能力，却缺乏预测未来几何演化的能力，从而在语义解释与物理模拟之间形成显著差距。为弥合这一差距，我们提出 HERMES++，一种统一的 driving world model，将 3D 场景理解与未来几何预测整合到单一框架中。

我们的方法通过协同设计来满足这些任务的不同需求。首先，BEV 表示将多视角空间信息整合为与 LLMs 兼容的结构。其次，我们引入 LLM-enhanced world queries，以促进来自理解分支的知识迁移。第三，我们设计 Current-to-Future Link 来弥合时间间隔，使几何演化以语义上下文为条件。最后，为保证结构完整性，我们采用 Joint Geometric Optimization 策略，将显式几何约束与隐式 latent regularization 结合，使内部表示与 geometry-aware 先验对齐。

在多个 benchmark 上的广泛评估验证了我们方法的有效性。HERMES++ 取得了很强的性能，在未来 point cloud 预测和 3D 场景理解任务中均优于 specialist 方法。模型和代码将在 https://github.com/H-EmbodVis/HERMESV2 公开发布。