allenai-blog

MolmoAct 2：面向现实世界机器人工作的开放基础 | Ai2

MolmoAct 2: An open foundation for robots that work in the real world | Ai2

二〇二六年五月八日 · 英文原文

摘要

Ai2 发布 MolmoAct 2、MolmoAct 2-Bimanual YAM dataset 和更新的 VLA pipeline。模型基于 Molmo 2-ER、flow matching action expert 与 adaptive-depth reasoning，开放 weights、data、tokenizer；数据集含超 720 小时双臂演示。评测中 LIBERO 成功率达 97.2%，MolmoAct 2-Think 达 98.1%，真实 Franka zero-shot 平均成功率 87.1%。

AI 可以替我们写邮件、调试代码、预订航班。但在物理世界中，它仍然举步维艰。让机器人可靠地把碗盘放进洗碗机，或在实验室中准备试管样本，对大多数系统来说仍远远超出其可连续数小时稳定完成的能力范围。然而，真正有能力的机器最有价值的地方恰恰在这里——承担最难招人的重复性工作，并加速科学发现。

过去一年，robotics foundation models 取得了实质进展，让我们更接近完全自主的机器人。但其底层方法仍大多是封闭的。有些团队会发布 weights，更少团队会发布 data，几乎没有团队会公开足够内容，让研究人员能够深入研究或在其基础上进行有意义的改进。

去年 8 月，我们发布了 MolmoAct，这是首个 Action Reasoning Model (ARM)——一类在行动前先以 3D 方式推理环境的新模型。今天，我们发布 MolmoAct 2，这是一次重要升级：它在行业 benchmark 上超过了能力很强的专有 robotics models；无需针对每个任务 fine-tuning，就能开箱处理多种真实世界任务；运行速度最高比前代快 37x——显著扩展了它可执行的工作类型。与 MolmoAct 2 一同发布的还有 MolmoAct 2-Bimanual YAM dataset，这是迄今发布的最大开源双臂桌面操作 robotics dataset，包含超过 720 小时的训练演示。

MolmoAct 2、MolmoAct 2-Bimanual YAM dataset，以及我们更新后的 VLA pipeline（包含一种新的 adapter 架构）现已开放，供研究人员研究和构建——包括 model weights、datasets，以及我们的 adaptive reasoning 方法，该方法帮助 MolmoAct 2 在 3D 中进行更深入的推理，以提升性能和可解释性。

从架构到数据，重新思考用于 reasoning 的 MolmoAct

MolmoAct 的训练数据包括 22 小时精心筛选的内部数据，这些数据在 3 个月内生成——约 10.6K 条 trajectories，每条都是机器人手臂在厨房、浴室、卧室、客厅和桌面场景中完成操作任务的成功记录——再加上 Open X-Embodiment 的一个过滤子集。Open X-Embodiment 是一个由社区汇聚的数据集，来自数十个 robotics 实验室。MolmoAct 证明了开放的、基于 reasoning 的架构可以在行业标准 benchmark 上击败规模大得多的封闭模型，而 MolmoAct 2 的目标则是部署到真实世界环境中。

为了创建 MolmoAct 2，我们重新设计了架构。MolmoAct 2 并不只是从 Molmo 2 初始化，而是从 Molmo 2-ER 初始化，后者是 Molmo 2 的一个专门用于 embodied-reasoning 的变体。我们通过在额外约 ~3M 个 embodied-reasoning 示例上继续训练 Molmo 2，得到了 Molmo 2-ER；这些示例覆盖基于图像的指向、object detection、抽象空间 reasoning、多图像 reasoning，以及基于图像和视频的空间问答。

这个更强的 reasoning backbone 直接体现在评测中。在 13 个 embodied-reasoning benchmark 上，覆盖指向、多图像 reasoning、ego-exo correspondence 和视频空间 reasoning，Molmo 2-ER 平均得分为 63.8/100，领先于 GPT-5、Gemini 2.5 Pro、Qwen3-VL-8B 和 GR-ER 1.5 等系统。

MolmoAct 2 将 Molmo 2-ER 与一个专用 action expert 配对，该 action expert 通过 flow matching 生成机器人动作，并通过 KV-cache bridge 连接到 VLM。MolmoAct 2 还拥有一个开放的 action tokenizer；Physical Intelligence 的 FAST tokenizer 是该领域近期最有用的贡献之一，但用于训练它的数据并未开放发布。我们构建了 MolmoAct 2-FAST Tokenizer，这是一个在我们的数据上训练的完全开源复现版本，并随 MolmoAct 2 一同发布。

由于这些以及其他改进，MolmoAct 2 的 inference 速度显著提高。base model 的单次 action call 约需 180 ms，带有 adaptive depth reasoning 的 MolmoAct 2 约需 790 ms，而 MolmoAct 需要 6,700 ms（在 LIBERO benchmark 环境中使用 1 NVIDIA H100 运行）——这相当于一个机器人在动作之间会明显停顿，和一个几乎能实时响应环境的机器人之间的差别。

我们还推出了 MolmoAct 2-Think，它通过 depth perception tokens 增强 MolmoAct 2，适用于受益于显式 3D reasoning 的任务。为了避免不必要的计算，我们的 adaptive-depth 机制只在预计能提升任务性能时才进行 depth prediction。这使 MolmoAct 2 能够对 3D 空间结构进行更深入的推理，同时保持高效 inference。模型并非为所有 image patches 预测 depth tokens，而是将 depth prediction 聚焦在发生动态场景变化的区域，从而降低密集 depth-token prediction 的延迟，并相比完整 depth-token prediction 实现 17% 的加速。

为了训练 MolmoAct 2，我们创建了 MolmoAct 2-Bimanual YAM dataset，这是一个 700 小时的机器人演示集合，涉及两个机械臂协同工作，覆盖折叠毛巾、扫描杂货、给智能手机充电、清理餐桌等协同任务。MolmoAct 2-Bimanual YAM dataset 是迄今发布的最大开源双臂 robotics dataset，包含的机器人数据量超过 MolmoAct 所用数据的 30x。我们在 Cortext AI 的支持下整理了 MolmoAct 2-Bimanual YAM dataset。

MolmoAct 可以通过针对每个任务 fine-tuning 来实现双臂操作；MolmoAct 2 则将双臂能力内置到 base model 中，因此用户可以开箱使用。

我们还用更广泛的机器人数据集混合补充了 MolmoAct 2-Bimanual YAM dataset，使 MolmoAct 2 接触到不同的机械臂、相机配置、控制方案和任务风格。其中包括来自低成本开源机器人手臂的大规模 SO-100/SO-101 datasets；经过过滤的 DROID Franka data，用于多样场景中的真实世界单臂操作；来自 Open X-Embodiment 的 Google Robot BC-Z 和 Fractal data，它们增加了大量基于 instruction-conditioned 的机器人操作示例；Bridge WidowX data，用于扩展到另一种常用机器人配置；以及 MolmoAct 的原始训练数据，用于保留支撑第一个模型的家居和桌面操作技能。

我们还改进了机器人数据中的语言部分。许多 robotics datasets 会重复使用任务标签，或包含低质量标注，例如测试运行字符串。为了让指令更准确、更多样，我们使用一个开放 VLM 重新标注了机器人演示，使数据集混合中的唯一标签数量从约 ~71K 增加到约 ~146K。

在仿真、适应和真实世界机器人任务中评估

我们对 MolmoAct 2 进行了迄今最严格的 robotics 评估之一，覆盖仿真、zero-shot 部署，以及通过 post-training 适应新的机器人设置。

MolmoAct 2 在仿真中表现强劲。在我们的家居操作 benchmark MolmoBot 上，它在所有任务中的平均成功率为 20.6%——约为 Physical Intelligence 的 π0.5（10.3%）的两倍。（MolmoBot 本身设计得较难；许多 baseline 得分只有个位数。）在 RoboEval 上，MolmoAct 2 得分 0.443，而 π0.5 为 0.405（越高越好）。RoboEval 是一个双臂操作 benchmark，旨在衡量不止简单成功/失败的结果。

在 Franka 机械臂上的真实世界 zero-shot 测试中，MolmoAct 2 在我们评估的每个任务上都超过了 π0.5 和我们此前的 MolmoBot model，任务从把苹果移到盘子上的简单 pick-and-place，到更精细的任务，如把移液器放入托盘、把一个小红方块放到胶带卷中心，或把刀放进盒子。在每个任务 15 次试验中，MolmoAct 2 在 apple-on-plate 上达到 100% 成功率，在 pipette-in-tray 上达到 86.7%，在 red-cube-in-tape-roll 上达到 93.3%，在 knife-in-box 上达到 93.3%，在将多个物体移入碗中的更长时程任务上达到 62%。总体而言，MolmoAct 2 平均成功率为 87.1%，相比之下 MolmoBot 为 48.4%，π0.5 为 45.2%。

我们还评估了 MolmoAct 2 在针对单臂和双臂任务进行 post-training 后的表现，这些任务包括摆放、清理和擦拭桌子；把碗放进水槽；抬起托盘；以及折叠毛巾。MolmoAct 2 在折叠毛巾、放置碗、擦桌子和抬托盘上表现尤其好，显示出该模型可以通过 post-training 适应实用的操作行为。

在 LIBERO 上，MolmoAct 2 经过 post-training 后达到 97.2% 的平均成功率，而 MolmoAct 2-Think 达到 98.1%。LIBERO 是一个衡量模型随时间获取并保持多种技能能力的 benchmark。相较 MolmoAct，这分别提高了约 10.6 和 11.5 个百分点。

此处描述的部分实验室内评估使用了 I2RT Robotics 捐赠的 YAM arms。I2RT 未参与 MolmoAct 2 的开发、评估设计或这些结果的报告。我们感谢他们的贡献。

为了在我们自己的实验室评估之外验证 MolmoAct 2，我们聘请了机器人数据与评估公司 Cortex AI，对 MolmoAct 2 的真实世界 fine-tuning 性能进行第三方 benchmark。Cortex AI 使用系统化的多次试验设置，在多个双臂任务上评估了包括 MolmoAct 2 在内的五种 robotics policies。

MolmoAct 2 取得最高平均得分 0.51，领先于 OpenVLA-OFT 的 0.36、π0.5 的 0.32、Cosmos Policy 的 0.16 和 X-VLA 的 0.05。它在任务级别的表现也最强，在 8 个任务中的 7 个排名第一，包括将试管放回托盘、收纳糖果、收拾工具、收拾玩具、收纳杯子、准备移液器吸头，以及制作爆米花。

在真实世界中部署

任何 robotics model 的真正考验，都是它能否在受控环境之外工作；在那里，指令会变化，小错误也可能随时间累积。MolmoAct 2 的设计目标，是在这些场景中更容易被引导，而无需重新训练整个模型。它可以响应自然语言指令，并使用 visual traces 来展示用户希望机器人采取的路径，使 MolmoAct 2 的行为更容易解释和 fine-tune。

为了降低部署门槛，我们还发布了 MolmoAct 2 的参考机器人硬件配置，将两台 YAM arms 与一台俯视 Intel RealSense D435 camera、两台用于近景视角的 D405 cameras、一个可伸缩支架和一个简单桌面工作区配对，为研究人员开展桌面和双臂操作工作提供一个简单起点。

自今年早些时候以来，我们一直与研究合作伙伴试点使用 MolmoAct 2，其中包括 Stanford School of Medicine Cong Lab 的研究人员，该实验室由 Le Cong 教授领导。该实验室正在推进一个 self-driving wetlab，以加速 genome engineering，这使其成为 robotics models 的一个有用压力测试：环境是非结构化的，任务要求重复的精确性，小错误可能在实验过程中累积。

在这些工作流中，由 MolmoAct 2 驱动的机械臂会处理 CRISPR gene-editing 实验中的常规操作步骤，例如在工作站之间移动样本，以及操作台式设备。在测试了一系列针对其工作流 fine-tuned 的通用 robotics models 后，Stanford 团队发现 MolmoAct 2 在简化 wetlab operations 的关键环节方面展现出很强潜力，并有望进一步加速科学发现。

另外，我们也在内部测试了 MolmoAct 2 如何应对类似真实部署的变化：改写后的指令、移动后的物体位置、场景中的干扰物体，以及物体替换。这些压力测试用于检验模型能否在具体场景不同于训练数据时，仍然遵循指令意图。

这些试点和评估共同帮助我们理解：MolmoAct 2 不仅能否在受控环境中完成任务，还能在周围环境频繁变化时保持怎样的表现。

为研究和扩展而构建

MolmoAct 2 是一个能力很强的模型，但它仍有局限。与其他机器人系统一样，当它自己的夹爪挡住相机视野、模型无法像机器人控制系统那样快速响应，或任务需要特别精细的操作时，它可能会遇到困难。而且它的 visual-trace steering 能力仍处于早期阶段——来自人类操作员的 2D traces 可能引入深度轴误差。

这些正是共享基础设施可以帮助该领域应对的挑战类型——研究人员可以检查的模型、可以继续构建的数据集，以及（即将发布的）可适配到新机器和新情境的训练代码。MolmoAct 2 旨在帮助建立这样的标准，基于我们去年通过 MolmoAct 打下的基础，将我们早期的研究转化为可见的影响。

在物理世界中采取行动，是 AI 最难的前沿之一，我们认为开放路径是最好的前进方式。下载这些 technical artifacts，并告诉我们你用它们构建了什么——以及我们还能在哪些方面改进。

订阅以每月接收最新 Ai2 新闻更新。

译自 allenai-blog · 录于二〇二六年五月八日