Hugging Face · Daily Papers

MolmoAct2：面向现实世界部署的动作推理模型

MolmoAct2: Action Reasoning Models for Real-world Deployment

Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai 等 29 位

来自 Ai2

二〇二六年五月五日 · arXiv:2605.02881 · PDF · Code

摘要

Vision-Language-Action（VLA）模型旨在为机器人提供单一的通用控制器，但当前系统在真实世界部署所需的关键标准上仍有不足。Frontier 模型是闭源的，open-weight 替代方案依赖昂贵硬件，reasoning-augmented policy 为获得 grounding 付出了过高 latency，而 fine-tuned 后的成功率仍低于可靠使用所需的阈值。我们提出 MolmoAct2，这是一个面向实际部署构建的 fully open action reasoning 模型，并在五个方面推进了其前身。

我们引入 MolmoER，这是一个专用于空间与 embodied reasoning 的 VLM backbone，使用 specialize-then-rehearse 方案在包含 3.3M 样本的语料上训练。我们发布了三个覆盖低到中等成本平台的新数据集，其中包括 MolmoAct2-BimanualYAM：720 小时遥操作双臂轨迹，构成迄今最大的开放双臂数据集；同时还包括经过质量过滤的 Franka（DROID）和 SO100/101 子集。我们提供 OpenFAST，这是一个 open-weight、open-data 的 action tokenizer，基于跨五种 embodiment 的数百万条轨迹训练而成。我们重新设计了架构，通过逐层 KV-cache conditioning，将一个 flow-matching continuous-action expert 嫁接到 discrete-token VLM 上。最后，我们提出 MolmoThink，这是一种 adaptive-depth reasoning 变体，仅对时间步之间发生变化的场景区域重新预测 depth token，从而以远低于以往的 latency 保留 geometric grounding。

在迄今针对 open VLA 最全面的实证研究中，实验覆盖 7 个仿真与真实世界 benchmark，MolmoAct2 优于包括 Pi-05 在内的强基线；同时，MolmoER 在 13 个 embodied-reasoning benchmark 上超过 GPT-5 和 Gemini Robotics ER-1.5。我们发布 model weights、训练代码和完整训练数据。项目页面：https://allenai.org/blog/molmoact2