X · 研究者一手

@drjimfan 新里程碑：我们在 world model b… 上训练了 robot foundation model

@drjimfan New milestone: we trained a robot foundation model on a world model b…

二〇二六年五月八日 · 英文原文

摘要

团队发布 DreamZero，一个基于 world model backbone 训练的 robot foundation model，称为 World Action Model（WAM）。其支持对新动词、名词和环境的 zero-shot open-world prompting，论文为《World Action Models are Zero-Shot Policies》。实验显示，WAM 从多样化数据学习，并通过 video 像素实现 robot2robot 与 human2robot transfer；在新硬件上用 55 条 trajectory、约 30 分钟 teleop 即可适配。模型已 open-source。

新里程碑：我们在 world model backbone 上训练了一个 robot foundation model，并让它具备了针对新动词、名词和环境的 zero-shot、open-world prompting 能力。如果 world model 能在像素中“梦见”正确的未来，那么 robot 就能在电机中很好地执行。我们称之为 “DreamZero”，这是我们的第一个 World Action Model（WAM）。

我们的团队在实验室玩得很开心：在开放的 text prompt 里输入任何想让 robot 做的事，然后看着 robot 执行它从未训练过的任务。这是一种我们并未完全预料到的 emergent capability。显然还没有达到 GPT-3 那样的可靠性，但我们正在迈入 GPT-2 时代。

发现：

Model 和 data recipe 会共同演化。与 VLA 相比，WAM 最擅长从多样化数据中学习，打破了传统认知：每个任务大量重复 demo 才是基础。多样性 >> 重复次数。
X-embodiment 极其困难。答案是像素。不同 robot 形态传统上很难很好地共享知识。但如果我们把 video 放在第一位，像素就会成为连接不同硬件的通用桥梁——甚至包括人类第一人称视角的视频。
DreamZero 展现出显著的 robot2robot 和 human2robot transfer。仅用新的、未见过硬件上的 55 条 trajectory（约 30 分钟 teleop），它就能快速适配，并保留 zero-shot prompting 能力。

昨天我发了关于 “Second Pre-training Paradigm” 的内容：world model 是下一代 Physical AI 的基础，而不是 language backbone。
今天，我们正在证明它有效。而 2026 才刚刚开始。

论文：World Action Models are Zero-Shot Policies。

现在阅读：（thread）

网站：https://t.co/2YwjQs3JMC
涵盖各种动词、名词和环境的 robot 执行 demo：https://t.co/loUZXZODcR
模型已 open-source！https://t.co/KZAggOotfs https://t.co/ns8yCHcZ8Z

译自 X · 研究者一手 · 录于二〇二六年五月八日