PhysBrain 1.0 技术报告

PhysBrain 1.0 Technical Report

Shijie Lian, Bin Yu, Xiaopeng Lin, Changti Wu, Hang Yuan, Xiaolin Hu, Zhaolong Shen, Yuzhuo Miao 等 13 位

来自 DeepCybo

二〇二六年五月十八日 · arXiv:2605.15298 · PDF · Code

摘要

视觉-语言-动作模型近年来发展迅速，但仅靠机器人轨迹数据难以覆盖广泛的物理世界理解。PhysBrain 1.0 探索了一条互补路径：在机器人适配之前，将大规模人类第一人称视频转化为结构化的物理常识监督信号。我们的数据引擎提取场景元素、空间动态、动作执行以及深度感知关系，并将其转化为问答监督信号，用于训练 PhysBrain VLM。这些物理先验知识随后通过一种保持能力且对语言敏感的适配设计，迁移至 VLA 策略。在多模态问答基准和具身控制基准（包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa）上，PhysBrain 1.0 取得了 SOTA 结果，并在 SimplerEnv 上展现出尤为突出的域外性能。这些结果表明，从人类交互视频中规模化提取物理常识，能够为从多模态理解到机器人动作提供有效的桥梁。

译自 Hugging Face · Daily Papers · arXiv:2605.15298 · 录于二〇二六年五月十八日