PhysBrain 1.0 技术报告
PhysBrain 1.0 Technical Report
来自 DeepCybo
摘要
视觉-语言-动作模型近年来发展迅速,但仅靠机器人轨迹数据难以覆盖广泛的物理世界理解。PhysBrain 1.0 探索了一条互补路径:在机器人适配之前,将大规模人类第一人称视频转化为结构化的物理常识监督信号。我们的数据引擎提取场景元素、空间动态、动作执行以及深度感知关系,并将其转化为问答监督信号,用于训练 PhysBrain VLM。这些物理先验知识随后通过一种保持能力且对语言敏感的适配设计,迁移至 VLA 策略。在多模态问答基准和具身控制基准(包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa)上,PhysBrain 1.0 取得了 SOTA 结果,并在 SimplerEnv 上展现出尤为突出的域外性能。这些结果表明,从人类交互视频中规模化提取物理常识,能够为从多模态理解到机器人动作提供有效的桥梁。
译自 Hugging Face · Daily Papers · arXiv:2605.15298 · 录于 二〇二六年五月十八日