Hugging Face · Daily Papers

RADIO-ViPE：面向动态环境中开放词汇语义 SLAM 的在线紧耦合多模态融合

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Zaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Sergey Kolyubin

二〇二六年四月三十日 · arXiv:2604.26067 · PDF · Code

摘要

我们提出 RADIO-ViPE（Reduce All Domains Into One -- Video Pose Engine），这是一种在线 semantic SLAM 系统，支持具备几何感知能力的 open-vocabulary grounding，能够在动态环境中将任意自然语言 query 与局部化的 3D 区域和对象关联起来。不同于现有方法需要经过校准且带有 pose 的 RGB-D 输入，RADIO-ViPE 可直接处理原始单目 RGB 视频流，不需要预先的相机内参、depth sensor 或 pose 初始化。

该系统将来自聚合式 foundation model（如 RADIO）的多模态 embedding（覆盖 vision 和 language）与几何场景信息紧密耦合。这种耦合体现在初始化、优化以及 factor graph 连接中，以提升多模态 map 的一致性。优化过程被封装在 adaptive robust kernel 中，旨在处理主动移动的对象以及由 agent 移动的场景元素（例如在 egocentric session 中被重新摆放的家具）。

实验表明，RADIO-ViPE 在动态 TUM-RGBD benchmark 上取得了 SOTA 结果，同时相较于依赖校准数据和静态场景假设的离线 open-vocabulary 方法，仍保持了有竞争力的性能。RADIO-ViPE 弥合了真实世界部署中的关键缺口，为自主机器人和不受约束的 in-the-wild 视频流提供了稳健的 open-vocabulary semantic grounding。项目页面：https://be2rlab.github.io/radio_vipe