一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

MolmoAct2:面向现实世界部署的动作推理模型

MolmoAct2: Action Reasoning Models for Real-world Deployment

Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai 等 29 位
来自 Ai2
二〇二六年五月五日 · arXiv:2605.02881 · PDF · Code

Vision-Language-Action(VLA)模型旨在为机器人提供单一的通用控制器,但当前系统在真实世界部署所需的关键标准上仍有不足。Frontier 模型是闭源的,open-weight 替代方案依赖昂贵硬件,reasoning-augmented policy 为获得 grounding 付出了过高 latency,而 fine-tuned 后的成功率仍低于可靠使用所需的阈值。我们提出 MolmoAct2,这是一个面向实际部署构建的 fully open action reasoning 模型,并在五个方面推进了其前身。

我们引入 MolmoER,这是一个专用于空间与 embodied reasoning 的 VLM backbone,使用 specialize-then-rehearse 方案在包含 3.3M 样本的语料上训练。我们发布了三个覆盖低到中等成本平台的新数据集,其中包括 MolmoAct2-BimanualYAM:720 小时遥操作双臂轨迹,构成迄今最大的开放双臂数据集;同时还包括经过质量过滤的 Franka(DROID)和 SO100/101 子集。我们提供 OpenFAST,这是一个 open-weight、open-data 的 action tokenizer,基于跨五种 embodiment 的数百万条轨迹训练而成。我们重新设计了架构,通过逐层 KV-cache conditioning,将一个 flow-matching continuous-action expert 嫁接到 discrete-token VLM 上。最后,我们提出 MolmoThink,这是一种 adaptive-depth reasoning 变体,仅对时间步之间发生变化的场景区域重新预测 depth token,从而以远低于以往的 latency 保留 geometric grounding。

在迄今针对 open VLA 最全面的实证研究中,实验覆盖 7 个仿真与真实世界 benchmark,MolmoAct2 优于包括 Pi-05 在内的强基线;同时,MolmoER 在 13 个 embodied-reasoning benchmark 上超过 GPT-5 和 Gemini Robotics ER-1.5。我们发布 model weights、训练代码和完整训练数据。项目页面:https://allenai.org/blog/molmoact2

译自 Hugging Face · Daily Papers · arXiv:2605.02881 · 录于 二〇二六年五月五日