一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@drjimfan 新里程碑:我们在 world model b… 上训练了 robot foundation model

@drjimfan New milestone: we trained a robot foundation model on a world model b…

二〇二六年五月八日 · 英文原文

团队发布 DreamZero,一个基于 world model backbone 训练的 robot foundation model,称为 World Action Model(WAM)。其支持对新动词、名词和环境的 zero-shot open-world prompting,论文为《World Action Models are Zero-Shot Policies》。实验显示,WAM 从多样化数据学习,并通过 video 像素实现 robot2robot 与 human2robot transfer;在新硬件上用 55 条 trajectory、约 30 分钟 teleop 即可适配。模型已 open-source。

新里程碑:我们在 world model backbone 上训练了一个 robot foundation model,并让它具备了针对新动词、名词和环境的 zero-shot、open-world prompting 能力。如果 world model 能在像素中“梦见”正确的未来,那么 robot 就能在电机中很好地执行。我们称之为 “DreamZero”,这是我们的第一个 World Action Model(WAM)。

我们的团队在实验室玩得很开心:在开放的 text prompt 里输入任何想让 robot 做的事,然后看着 robot 执行它从未训练过的任务。这是一种我们并未完全预料到的 emergent capability。显然还没有达到 GPT-3 那样的可靠性,但我们正在迈入 GPT-2 时代。

发现:

昨天我发了关于 “Second Pre-training Paradigm” 的内容:world model 是下一代 Physical AI 的基础,而不是 language backbone。
今天,我们正在证明它有效。而 2026 才刚刚开始。

论文:World Action Models are Zero-Shot Policies。

现在阅读:(thread)

网站:https://t.co/2YwjQs3JMC
涵盖各种动词、名词和环境的 robot 执行 demo:https://t.co/loUZXZODcR
模型已 open-source!https://t.co/KZAggOotfs https://t.co/ns8yCHcZ8Z

译自 X · 研究者一手 · 录于 二〇二六年五月八日