MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2
MolmoAct 2: An open foundation for robots that work in the real world | Ai2
Ai2 发布 MolmoAct 2、MolmoAct 2-Bimanual YAM dataset 和更新的 VLA pipeline。模型基于 Molmo 2-ER、flow matching action expert 与 adaptive-depth reasoning,开放 weights、data、tokenizer;数据集含超 720 小时双臂演示。评测中 LIBERO 成功率达 97.2%,MolmoAct 2-Think 达 98.1%,真实 Franka zero-shot 平均成功率 87.1%。
AI 可以替我们写邮件、调试代码、预订航班。但在物理世界中,它仍然举步维艰。让机器人可靠地把碗盘放进洗碗机,或在实验室中准备试管样本,对大多数系统来说仍远远超出其可连续数小时稳定完成的能力范围。然而,真正有能力的机器最有价值的地方恰恰在这里——承担最难招人的重复性工作,并加速科学发现。
过去一年,robotics foundation models 取得了实质进展,让我们更接近完全自主的机器人。但其底层方法仍大多是封闭的。有些团队会发布 weights,更少团队会发布 data,几乎没有团队会公开足够内容,让研究人员能够深入研究或在其基础上进行有意义的改进。
去年 8 月,我们发布了 MolmoAct,这是首个 Action Reasoning Model (ARM)——一类在行动前先以 3D 方式推理环境的新模型。今天,我们发布 MolmoAct 2,这是一次重要升级:它在行业 benchmark 上超过了能力很强的专有 robotics models;无需针对每个任务 fine-tuning,就能开箱处理多种真实世界任务;运行速度最高比前代快 37x——显著扩展了它可执行的工作类型。与 MolmoAct 2 一同发布的还有 MolmoAct 2-Bimanual YAM dataset,这是迄今发布的最大开源双臂桌面操作 robotics dataset,包含超过 720 小时的训练演示。
MolmoAct 2、MolmoAct 2-Bimanual YAM dataset,以及我们更新后的 VLA pipeline(包含一种新的 adapter 架构)现已开放,供研究人员研究和构建——包括 model weights、datasets,以及我们的 adaptive reasoning 方法,该方法帮助 MolmoAct 2 在 3D 中进行更深入的推理,以提升性能和可解释性。
从架构到数据,重新思考用于 reasoning 的 MolmoAct
MolmoAct 的训练数据包括 22 小时精心筛选的内部数据,这些数据在 3 个月内生成——约 10.6K 条 trajectories,每条都是机器人手臂在厨房、浴室、卧室、客厅和桌面场景中完成操作任务的成功记录——再加上 Open X-Embodiment 的一个过滤子集。Open X-Embodiment 是一个由社区汇聚的数据集,来自数十个 robotics 实验室。MolmoAct 证明了开放的、基于 reasoning 的架构可以在行业标准 benchmark 上击败规模大得多的封闭模型,而 MolmoAct 2 的目标则是部署到真实世界环境中。
为了创建 MolmoAct 2,我们重新设计了架构。MolmoAct 2 并不只是从 Molmo 2 初始化,而是从 Molmo 2-ER 初始化,后者是 Molmo 2 的一个专门用于 embodied-reasoning 的变体。我们通过在额外约 ~3M 个 embodied-reasoning 示例上继续训练 Molmo 2,得到了 Molmo 2-ER;这些示例覆盖基于图像的指向、object detection、抽象空间 reasoning、多图像 reasoning,以及基于图像和视频的空间问答。
这个更强的 reasoning backbone 直接体现在评测中。在 13 个 embodied-reasoning benchmark 上,覆盖指向、多图像 reasoning、ego-exo correspondence 和视频空间 reasoning,Molmo 2-ER 平均得分为 63.8/100,领先于 GPT-5、Gemini 2.5 Pro、Qwen3-VL-8B 和 GR-ER 1.5 等系统。
MolmoAct 2 将 Molmo 2-ER 与一个专用 action expert 配对,该 action expert 通过 flow matching 生成机器人动作,并通过 KV-cache bridge 连接到 VLM。MolmoAct 2 还拥有一个开放的 action tokenizer;Physical Intelligence 的 FAST tokenizer 是该领域近期最有用的贡献之一,但用于训练它的数据并未开放发布。我们构建了 MolmoAct 2-FAST Tokenizer,这是一个在我们的数据上训练的完全开源复现版本,并随 MolmoAct 2 一同发布。
由于这些以及其他改进,MolmoAct 2 的 inference 速度显著提高。base model 的单次 action call 约需 180 ms,带有 adaptive depth reasoning 的 MolmoAct 2 约需 790 ms,而 MolmoAct 需要 6,700 ms(在 LIBERO benchmark 环境中使用 1 NVIDIA H100 运行)——这相当于一个机器人在动作之间会明显停顿,和一个几乎能实时响应环境的机器人之间的差别。
我们还推出了 MolmoAct 2-Think,它通过 depth perception tokens 增强 MolmoAct 2,适用于受益于显式 3D reasoning 的任务。为了避免不必要的计算,我们的 adaptive-depth 机制只在预计能提升任务性能时才进行 depth prediction。这使 MolmoAct 2 能够对 3D 空间结构进行更深入的推理,同时保持高效 inference。模型并非为所有 image patches 预测 depth tokens,而是将 depth prediction 聚焦在发生动态场景变化的区域,从而降低密集 depth-token prediction 的延迟,并相比完整 depth-token prediction 实现 17% 的加速。
为了训练 MolmoAct 2,我们创建了 MolmoAct 2-Bimanual YAM dataset,这是一个 700 小时的机器人演示集合,涉及两个机械臂协同工作,覆盖折叠毛巾、扫描杂货、给智能手机充电、清理餐桌等协同任务。MolmoAct 2-Bimanual YAM dataset 是迄今发布的最大开源双臂 robotics dataset,包含的机器人数据量超过 MolmoAct 所用数据的 30x。我们在 Cortext AI 的支持下整理了 MolmoAct 2-Bimanual YAM dataset。
MolmoAct 可以通过针对每个任务 fine-tuning 来实现双臂操作;MolmoAct 2 则将双臂能力内置到 base model 中,因此用户可以开箱使用。
我们还用更广泛的机器人数据集混合补充了 MolmoAct 2-Bimanual YAM dataset,使 MolmoAct 2 接触到不同的机械臂、相机配置、控制方案和任务风格。其中包括来自低成本开源机器人手臂的大规模 SO-100/SO-101 datasets;经过过滤的 DROID Franka data,用于多样场景中的真实世界单臂操作;来自 Open X-Embodiment 的 Google Robot BC-Z 和 Fractal data,它们增加了大量基于 instruction-conditioned 的机器人操作示例;Bridge WidowX data,用于扩展到另一种常用机器人配置;以及 MolmoAct 的原始训练数据,用于保留支撑第一个模型的家居和桌面操作技能。
我们还改进了机器人数据中的语言部分。许多 robotics datasets 会重复使用任务标签,或包含低质量标注,例如测试运行字符串。为了让指令更准确、更多样,我们使用一个开放 VLM 重新标注了机器人演示,使数据集混合中的唯一标签数量从约 ~71K 增加到约 ~146K。
在仿真、适应和真实世界机器人任务中评估
我们对 MolmoAct 2 进行了迄今最严格的 robotics 评估之一,覆盖仿真、zero-shot 部署,以及通过 post-training 适应新的机器人设置。
MolmoAct 2 在仿真中表现强劲。在我们的家居操作 benchmark MolmoBot 上,它在所有任务中的平均成功率为 20.6%——约为 Physical Intelligence 的 π0.5(10.3%)的两倍。(MolmoBot 本身设计得较难;许多 baseline 得分只有个位数。)在 RoboEval 上,MolmoAct 2 得分 0.443,而 π0.5 为 0.405(越高越好)。RoboEval 是一个双臂操作 benchmark,旨在衡量不止简单成功/失败的结果。
在 Franka 机械臂上的真实世界 zero-shot 测试中,MolmoAct 2 在我们评估的每个任务上都超过了 π0.5 和我们此前的 MolmoBot model,任务从把苹果移到盘子上的简单 pick-and-place,到更精细的任务,如把移液器放入托盘、把一个小红方块放到胶带卷中心,或把刀放进盒子。在每个任务 15 次试验中,MolmoAct 2 在 apple-on-plate 上达到 100% 成功率,在 pipette-in-tray 上达到 86.7%,在 red-cube-in-tape-roll 上达到 93.3%,在 knife-in-box 上达到 93.3%,在将多个物体移入碗中的更长时程任务上达到 62%。总体而言,MolmoAct 2 平均成功率为 87.1%,相比之下 MolmoBot 为 48.4%,π0.5 为 45.2%。
我们还评估了 MolmoAct 2 在针对单臂和双臂任务进行 post-training 后的表现,这些任务包括摆放、清理和擦拭桌子;把碗放进水槽;抬起托盘;以及折叠毛巾。MolmoAct 2 在折叠毛巾、放置碗、擦桌子和抬托盘上表现尤其好,显示出该模型可以通过 post-training 适应实用的操作行为。
在 LIBERO 上,MolmoAct 2 经过 post-training 后达到 97.2% 的平均成功率,而 MolmoAct 2-Think 达到 98.1%。LIBERO 是一个衡量模型随时间获取并保持多种技能能力的 benchmark。相较 MolmoAct,这分别提高了约 10.6 和 11.5 个百分点。
此处描述的部分实验室内评估使用了 I2RT Robotics 捐赠的 YAM arms。I2RT 未参与 MolmoAct 2 的开发、评估设计或这些结果的报告。我们感谢他们的贡献。
为了在我们自己的实验室评估之外验证 MolmoAct 2,我们聘请了机器人数据与评估公司 Cortex AI,对 MolmoAct 2 的真实世界 fine-tuning 性能进行第三方 benchmark。Cortex AI 使用系统化的多次试验设置,在多个双臂任务上评估了包括 MolmoAct 2 在内的五种 robotics policies。
MolmoAct 2 取得最高平均得分 0.51,领先于 OpenVLA-OFT 的 0.36、π0.5 的 0.32、Cosmos Policy 的 0.16 和 X-VLA 的 0.05。它在任务级别的表现也最强,在 8 个任务中的 7 个排名第一,包括将试管放回托盘、收纳糖果、收拾工具、收拾玩具、收纳杯子、准备移液器吸头,以及制作爆米花。
在真实世界中部署
任何 robotics model 的真正考验,都是它能否在受控环境之外工作;在那里,指令会变化,小错误也可能随时间累积。MolmoAct 2 的设计目标,是在这些场景中更容易被引导,而无需重新训练整个模型。它可以响应自然语言指令,并使用 visual traces 来展示用户希望机器人采取的路径,使 MolmoAct 2 的行为更容易解释和 fine-tune。
为了降低部署门槛,我们还发布了 MolmoAct 2 的参考机器人硬件配置,将两台 YAM arms 与一台俯视 Intel RealSense D435 camera、两台用于近景视角的 D405 cameras、一个可伸缩支架和一个简单桌面工作区配对,为研究人员开展桌面和双臂操作工作提供一个简单起点。
自今年早些时候以来,我们一直与研究合作伙伴试点使用 MolmoAct 2,其中包括 Stanford School of Medicine Cong Lab 的研究人员,该实验室由 Le Cong 教授领导。该实验室正在推进一个 self-driving wetlab,以加速 genome engineering,这使其成为 robotics models 的一个有用压力测试:环境是非结构化的,任务要求重复的精确性,小错误可能在实验过程中累积。
在这些工作流中,由 MolmoAct 2 驱动的机械臂会处理 CRISPR gene-editing 实验中的常规操作步骤,例如在工作站之间移动样本,以及操作台式设备。在测试了一系列针对其工作流 fine-tuned 的通用 robotics models 后,Stanford 团队发现 MolmoAct 2 在简化 wetlab operations 的关键环节方面展现出很强潜力,并有望进一步加速科学发现。
另外,我们也在内部测试了 MolmoAct 2 如何应对类似真实部署的变化:改写后的指令、移动后的物体位置、场景中的干扰物体,以及物体替换。这些压力测试用于检验模型能否在具体场景不同于训练数据时,仍然遵循指令意图。
这些试点和评估共同帮助我们理解:MolmoAct 2 不仅能否在受控环境中完成任务,还能在周围环境频繁变化时保持怎样的表现。
为研究和扩展而构建
MolmoAct 2 是一个能力很强的模型,但它仍有局限。与其他机器人系统一样,当它自己的夹爪挡住相机视野、模型无法像机器人控制系统那样快速响应,或任务需要特别精细的操作时,它可能会遇到困难。而且它的 visual-trace steering 能力仍处于早期阶段——来自人类操作员的 2D traces 可能引入深度轴误差。
这些正是共享基础设施可以帮助该领域应对的挑战类型——研究人员可以检查的模型、可以继续构建的数据集,以及(即将发布的)可适配到新机器和新情境的训练代码。MolmoAct 2 旨在帮助建立这样的标准,基于我们去年通过 MolmoAct 打下的基础,将我们早期的研究转化为可见的影响。
在物理世界中采取行动,是 AI 最难的前沿之一,我们认为开放路径是最好的前进方式。下载这些 technical artifacts,并告诉我们你用它们构建了什么——以及我们还能在哪些方面改进。