Hugging Face · Daily Papers

PhysBrain 1.0 技术报告

PhysBrain 1.0 Technical Report

Shijie Lian, Bin Yu, Xiaopeng Lin, Changti Wu, Hang Yuan, Xiaolin Hu, Zhaolong Shen, Yuzhuo Miao 等 13 位
来自 DeepCybo
二〇二六年五月十八日 · arXiv:2605.15298 · PDF · Code

视觉-语言-动作模型近年来发展迅速,但仅靠机器人轨迹数据难以覆盖广泛的物理世界理解。PhysBrain 1.0 探索了一条互补路径:在机器人适配之前,将大规模人类第一人称视频转化为结构化的物理常识监督信号。我们的数据引擎提取场景元素、空间动态、动作执行以及深度感知关系,并将其转化为问答监督信号,用于训练 PhysBrain VLM。这些物理先验知识随后通过一种保持能力且对语言敏感的适配设计,迁移至 VLA 策略。在多模态问答基准和具身控制基准(包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa)上,PhysBrain 1.0 取得了 SOTA 结果,并在 SimplerEnv 上展现出尤为突出的域外性能。这些结果表明,从人类交互视频中规模化提取物理常识,能够为从多模态理解到机器人动作提供有效的桥梁。

译自 Hugging Face · Daily Papers · arXiv:2605.15298 · 录于 二〇二六年五月十八日