@drjimfan 新里程碑:我们在 world model b… 上训练了 robot foundation model
@drjimfan New milestone: we trained a robot foundation model on a world model b…
团队发布 DreamZero,一个基于 world model backbone 训练的 robot foundation model,称为 World Action Model(WAM)。其支持对新动词、名词和环境的 zero-shot open-world prompting,论文为《World Action Models are Zero-Shot Policies》。实验显示,WAM 从多样化数据学习,并通过 video 像素实现 robot2robot 与 human2robot transfer;在新硬件上用 55 条 trajectory、约 30 分钟 teleop 即可适配。模型已 open-source。
新里程碑:我们在 world model backbone 上训练了一个 robot foundation model,并让它具备了针对新动词、名词和环境的 zero-shot、open-world prompting 能力。如果 world model 能在像素中“梦见”正确的未来,那么 robot 就能在电机中很好地执行。我们称之为 “DreamZero”,这是我们的第一个 World Action Model(WAM)。
我们的团队在实验室玩得很开心:在开放的 text prompt 里输入任何想让 robot 做的事,然后看着 robot 执行它从未训练过的任务。这是一种我们并未完全预料到的 emergent capability。显然还没有达到 GPT-3 那样的可靠性,但我们正在迈入 GPT-2 时代。
发现:
Model 和 data recipe 会共同演化。与 VLA 相比,WAM 最擅长从多样化数据中学习,打破了传统认知:每个任务大量重复 demo 才是基础。多样性 >> 重复次数。
X-embodiment 极其困难。答案是像素。不同 robot 形态传统上很难很好地共享知识。但如果我们把 video 放在第一位,像素就会成为连接不同硬件的通用桥梁——甚至包括人类第一人称视角的视频。
DreamZero 展现出显著的 robot2robot 和 human2robot transfer。仅用 新 的、未见过硬件上的 55 条 trajectory(约 30 分钟 teleop),它就能快速适配,并保留 zero-shot prompting 能力。
昨天我发了关于 “Second Pre-training Paradigm” 的内容:world model 是下一代 Physical AI 的基础,而不是 language backbone。
今天,我们正在证明它有效。而 2026 才刚刚开始。
论文:World Action Models are Zero-Shot Policies。
现在阅读:(thread)
网站:https://t.co/2YwjQs3JMC
涵盖各种动词、名词和环境的 robot 执行 demo:https://t.co/loUZXZODcR
模型已 open-source!https://t.co/KZAggOotfs https://t.co/ns8yCHcZ8Z