@drjimfan 介绍 DreamDojo:我们的开源交互式世界模型,能够 t…
@drjimfan Announcing DreamDojo: our open-source, interactive world model that t…
NVIDIA 团队发布并开源 DreamDojo,基于 NVIDIA Cosmos 的交互式 world model,在 44K 小时人类第一人称视频上 pre-train,用 latent actions 表示动作,并对机器人 post-train;实时版 10 FPS,支持 live teleop、policy evaluation 和 model-based planning,水果打包任务真实成功率提升 17%。
发布 DreamDojo:我们开源的交互式 world model,它接收机器人电机控制,并以像素形式生成未来。没有 engine,没有 meshes,没有人工编写的 dynamics。这是 Simulation 2.0。机器人领域该接受 bitter lesson 了。
真实世界中的机器人学习受限于时间、磨损、安全和重置。如果我们希望 Physical AI 以 pretraining 的速度推进,就需要一个能适应 pretraining 规模、同时尽可能少依赖人工工程的 simulator。
我们的关键洞见:(1)人类第一人称视频是可扩展的第一人称物理数据来源;(2)latent actions 让它们能跨不同硬件被“机器人读取”;(3)实时 inference 解锁了梦境内部的 live teleop、policy eval 和 test-time planning。
我们在 44K 小时的人类视频上进行 pre-train:成本低、数量多,并且采集时完全没有 robot-in-the-loop。人类已经探索过这些组合空间:我们抓取、倾倒、折叠、组装、失败、重试——跨越杂乱场景、变化视角、变化光照,以及长达一小时的任务链——其规模没有任何机器人 fleet 能匹配。缺失的一环是:这些视频没有 action labels。因此我们引入 latent actions:一种直接从视频中推断出的统一表示,用来捕捉“world states 之间发生了什么变化”,而无需知道底层硬件。这使我们能把任何第一人称视频都当作附带 motor commands 的数据来训练。
因此,DreamDojo 能 zero-shot 泛化到任何机器人训练集中从未出现过的物体和环境,因为人类先见过它们。
接着,我们对每台机器人进行 post-train,以适配其特定硬件。可以把它理解为把“世界如何呈现和运作”与“这台特定机器人如何驱动”分离开。base model 遵循通用物理规则,然后“贴合”到机器人的独特机械结构上。有点像把一个新角色和场景 assets 加载进 Unreal Engine,但这是通过 gradient descent 完成的,并且能泛化到远超 post-training dataset 的范围。
world simulator 只有在足够快、能够闭环运行时才有用。我们训练了 DreamDojo 的实时版本,可以以 10 FPS 运行,并在超过一分钟的连续 rollout 中保持稳定。这解锁了一些有意思的可能性:
- 在梦境中进行 live teleoperation。连接一个 VR controller,把 actions 流式输入 DreamDojo,并实时 teleop 一个虚拟机器人。我们在 Unitree G1 上用 PICO 头显和一张 RTX 5090 做了演示。
- Policy evaluation。你可以在 DreamDojo 中 benchmark 一个 policy checkpoint,而不是去真实世界测试。模拟成功率与真实世界结果强相关——准确到足以在不消耗任何电机的情况下对 checkpoints 排序。
- Model-based planning。采样多个 action proposals → 并行模拟它们 → 选择最好的未来。在一个水果打包任务上,开箱即用带来 +17% 的真实世界成功率提升。
我们开源所有内容!!Weights、code、post-training dataset、eval set,以及包含大量复现细节的 whitepaper。DreamDojo 基于 NVIDIA Cosmos,后者也是 open-weight。
2026 是 Physical AI 的 World Models 之年。我们希望你和我们一起构建。祝 scaling 顺利!
thread 中的链接:
- Project website: https://t.co/spMblBfS9T
- Paper: https://t.co/nUuTR51jLt
- Code repo and model ckpts: https://t.co/h4BNAYG3PZ
这是 NVIDIA 一个庞大团队的工作。所有功劳都归于那些全心投入其中的出色团队!https://t.co/pwEx9kuBXE