MolmoAct2:面向现实世界部署的动作推理模型
MolmoAct2: Action Reasoning Models for Real-world Deployment
Vision-Language-Action(VLA)模型旨在为机器人提供单一的通用控制器,但当前系统在真实世界部署所需的关键标准上仍有不足。Frontier 模型是闭源的,open-weight 替代方案依赖昂贵硬件,reasoning-augmented policy 为获得 grounding 付出了过高 latency,而 fine-tuned 后的成功率仍低于可靠使用所需的阈值。我们提出 MolmoAct2,这是一个面向实际部署构建的 fully open action reasoning 模型,并在五个方面推进了其前身。
我们引入 MolmoER,这是一个专用于空间与 embodied reasoning 的 VLM backbone,使用 specialize-then-rehearse 方案在包含 3.3M 样本的语料上训练。我们发布了三个覆盖低到中等成本平台的新数据集,其中包括 MolmoAct2-BimanualYAM:720 小时遥操作双臂轨迹,构成迄今最大的开放双臂数据集;同时还包括经过质量过滤的 Franka(DROID)和 SO100/101 子集。我们提供 OpenFAST,这是一个 open-weight、open-data 的 action tokenizer,基于跨五种 embodiment 的数百万条轨迹训练而成。我们重新设计了架构,通过逐层 KV-cache conditioning,将一个 flow-matching continuous-action expert 嫁接到 discrete-token VLM 上。最后,我们提出 MolmoThink,这是一种 adaptive-depth reasoning 变体,仅对时间步之间发生变化的场景区域重新预测 depth token,从而以远低于以往的 latency 保留 geometric grounding。
在迄今针对 open VLA 最全面的实证研究中,实验覆盖 7 个仿真与真实世界 benchmark,MolmoAct2 优于包括 Pi-05 在内的强基线;同时,MolmoER 在 13 个 embodied-reasoning benchmark 上超过 GPT-5 和 Gemini Robotics ER-1.5。我们发布 model weights、训练代码和完整训练数据。项目页面:https://allenai.org/blog/molmoact2