RADIO-ViPE:面向动态环境中开放词汇语义 SLAM 的在线紧耦合多模态融合
RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments
我们提出 RADIO-ViPE(Reduce All Domains Into One -- Video Pose Engine),这是一种在线 semantic SLAM 系统,支持具备几何感知能力的 open-vocabulary grounding,能够在动态环境中将任意自然语言 query 与局部化的 3D 区域和对象关联起来。不同于现有方法需要经过校准且带有 pose 的 RGB-D 输入,RADIO-ViPE 可直接处理原始单目 RGB 视频流,不需要预先的相机内参、depth sensor 或 pose 初始化。
该系统将来自聚合式 foundation model(如 RADIO)的多模态 embedding(覆盖 vision 和 language)与几何场景信息紧密耦合。这种耦合体现在初始化、优化以及 factor graph 连接中,以提升多模态 map 的一致性。优化过程被封装在 adaptive robust kernel 中,旨在处理主动移动的对象以及由 agent 移动的场景元素(例如在 egocentric session 中被重新摆放的家具)。
实验表明,RADIO-ViPE 在动态 TUM-RGBD benchmark 上取得了 SOTA 结果,同时相较于依赖校准数据和静态场景假设的离线 open-vocabulary 方法,仍保持了有竞争力的性能。RADIO-ViPE 弥合了真实世界部署中的关键缺口,为自主机器人和不受约束的 in-the-wild 视频流提供了稳健的 open-vocabulary semantic grounding。项目页面:https://be2rlab.github.io/radio_vipe