Hugging Face · 官方博客

欢迎 NVIDIA Cosmos 3:首个面向物理AI推理与行动的开源全模态模型

Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action

二〇二六年六月一日 · 英文原文

NVIDIA 发布 Cosmos 3,一个基于 Mixture-of-Transformers(MoT)架构的物理 AI 世界基础模型(WFM),将世界生成、物理推理和动作生成整合于单一模型。该模型包含 Cosmos 3 Nano(8B 参数)和 Cosmos 3 Super(32B 参数)两个版本,已在 Hugging Face 发布。同时提供 Diffusers 集成、后训练脚本及多个合成数据生成(SDG)数据集,覆盖机器人、自动驾驶、仓库安全等领域。

](https://huggingface.co/asawareeb)

Image 2: Atharva Joshi 的头像

NVIDIA Cosmos 3 来了——今天已在 Hugging Face 上发布。Cosmos 3 代表了物理 AI 的世界基础模型(WFM)的一次重大飞跃:一个单一、统一的 omni-model,将世界生成、物理推理和动作生成整合在一个模型中。无需再在多个模型和推理 pipeline 之间切换——Cosmos 3 一应俱全。

无论你是在为机器人、自动驾驶汽车还是智能空间构建系统,Cosmos 3 都为你提供了模拟和理解物理世界的基础。

本次发布包含以下内容:

目录

  1. Cosmos 3 有哪些新功能?
  2. Cosmos 3 能力
  3. 结合 Diffusers 使用 Cosmos 3
  4. 物理 AI 数据集
  5. Cosmos 框架
  6. 资源

第一部分:Cosmos 3 有哪些新功能?

与之前的 Cosmos 版本相比,Cosmos 3 最大的变化在于它是一个 omni-model,基于 Mixture-of-Transformers(MoT)架构构建。此前,开发者需要为不同能力使用单独的模型,例如世界生成(Cosmos Predict)、受控生成(Cosmos Transfer)、场景理解(Cosmos Reason)和策略生成(Cosmos Policy)。Cosmos 3 在单个模型中实现了所有这些功能,可以在一次统一的前向传播中推理并生成不同模态。

这意味着你现在可以从一个模型完成所有这些操作:

这对物理 AI 为何重要

Cosmos 3 有助于构建能够理解真实世界的物理 AI 系统。不仅仅是像素和 token,还包括运动、因果关系、物理规律和动作。如果你正在训练一个机器人叠衣服、构建自动驾驶模拟,或为仓库安全场景生成合成训练数据,Cosmos 3 正是为这些用例设计的基础模型。

Image 3 Cosmos 3 为机器人抓取和放置用例生成的视频。

Image 4 Cosmos 3 为长尾驾驶场景生成的视频。

Image 5 使用 Cosmos 3 为仓库安全数据生成的图像到视频。

Image 6 Cosmos 3 在自动驾驶应用中的思维链推理。

架构

Cosmos 3 基于 MoT 骨干网络构建,在单一统一架构中处理所有模态——文本、图像、视频、音频和动作。每种模态首先由专用编码器编码(用于视觉理解的 ViT、用于视觉/音频生成的 VAE,以及用于动作的领域感知向量),然后投影到共享表示空间。

Image 7: cosmos3-architecture-diagram

输入序列被分为两个子序列:一个自回归(AR)子序列,通过 next-token prediction 处理推理和理解;一个扩散(DM)子序列,通过迭代去噪处理生成。AR 和 DM token 在每个 transformer 层中使用独立的参数集,但通过联合注意力(joint attention)进行交互——这使得单个模型能够在无需任何架构更改的情况下,无缝切换为 VLM、视频生成器、前向/逆向动力学模型或机器人策略。

模型版本

本次发布的 Cosmos 3 包含两种模型尺寸,针对不同部署场景进行了优化:

第二部分:Cosmos 3 能力

Cosmos 3 通过单一统一模型支持多种输入和生成模态:

输入模态 输出模态 应用
文本 图像 视频
文本 视频 文本
动作 图像 文本
文本 视频 动作
图像 文本 视频 & 动作

提示词指南

对于视频生成,我们建议使用叙述性段落形式的详细提示词。例如:

视频以一辆行驶在晴朗蓝天下的多车道高速公路上的车内视角开始。道路两侧是茂密的绿树,营造出宁静的环境。前方可见多辆车辆,包括一辆显眼的白色半挂卡车和各种轿车,它们保持稳定的速度。高速公路由混凝土护栏分隔的多条车道组成,场景沐浴在明亮的阳光下,表明是晴朗的一天。随着视频推进,前方车道上突然出现大量碎片。由于几乎没有时间躲避,自车不得不驶过碎片并继续前进。自车经过散落物体时会发生明显的颠簸。车内视角,捕捉前方道路和周围环境。

对于动作生成,提示词应简洁并提供空间参考。例如:

将锅放在紫色物品的左侧。此视频以第一人称视角拍摄场景。

请在 GitHub 上的提示词指南中查找提示词上采样模板以及编写高质量提示词的最佳实践。

第三部分:结合 Diffusers 使用 Cosmos 3

Cosmos 3 已集成到 Hugging Face Diffusers 库中,只需几行代码即可轻松使用世界生成 pipeline。你可以通过熟悉的 DiffusionPipeline 中的 Cosmos3OmniPipeline 运行 Cosmos 3。这样做的目标是实现 Cosmos 3 的无缝采用,并集成到你现有的 pipeline 中。

让我们看一个使用 Cosmos 3 Nano 模型进行单帧生成的文本到图像示例:

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)

prompt = (
    "一个现代机器人研究实验室的中景镜头,白色墙壁和灰色地板。"
    "一个金属质感的机械臂安装在一个干净的白色工作台上,其夹爪位于"
    "一排彩色小物体上方。机器人旁边放着一台笔记本电脑和整齐排列的工具。"
    "后面墙上的大显示器显示着软件界面。场景被头顶的荧光灯照亮。"
)

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

以下是 Cosmos 3 Nano 模型根据给定提示词生成的图像:

Image 8

文档中还包含文本到视频、图像到视频等示例。请查阅 Cosmos 3 Diffusers 文档 了解信息和 API 用法。

第四部分:物理 AI 数据集

作为 Cosmos 3 发布的一部分,NVIDIA 发布了一组合成数据生成(SDG)数据集,以帮助物理 AI 社区训练和评估世界基础模型。这些数据集由多个 NVIDIA 团队生成,可在 Hugging Face 上获取。

数据集 领域 描述
Embodied-Robot-Scenes 机器人 合成机器人仿真数据
Physical-Interaction-Scenes 物理 Isaac Sim 物理仿真数据
Spatial-Reasoning 推理 具身空间推理数据
Digital-Human-Scenes 人体运动 合成人体运动数据
Autonomous-Driving-Scenarios 驾驶 驾驶仿真数据
Warehouse-Operations-Scenes 仓库安全 仓库环境数据

第五部分:Cosmos 框架

Cosmos 框架 是一个端到端框架,用于训练和提供像 Cosmos 3 这样的 WFM。你可以在这里找到推理和后训练脚本,以及用于开发的 agent skills。

后训练 Cosmos 3

Cosmos 3 开箱即用即可理解和生成用于机器人、自动驾驶汽车和智能空间的世界视频和动作,但某些应用可能需要在特定数据集上进行进一步的后训练以获得最佳效果。我们鼓励针对不同的机器人、环境和任务对 Cosmos 3 进行后训练——请查看仓库中的后训练指南。

Agent Skills

该仓库还附带 agent skills,使开发快速简便。这些 skills 有助于验证需求,并使用依赖项设置环境。你还可以使用它们来了解仓库结构和示例、起草好的提示词,或运行推理和后训练脚本。

第六部分:资源

阅读 Cosmos 3 技术博客,了解 Cosmos 3 的能力、性能、后训练以及使用 NIM 微服务的部署。

致谢

Cosmos 3 是 NVIDIA 内部众多团队和个人之间出色合作的结果,包括——

Adeline Aubame, Aditya Mahajan, Aigul Dzhumamuratova, Akash Gokul, Akul Santhosh, Aleksandr Efitorov, Alex Sotelo, Alexander Schwarz, Alperen Degirmenci, Amol Fasale, Andrew Tham, Ankur Handa, Arihant Jain, Arslan Ali, Artur Zolkowski, Aryaman Gupta, Asawaree Bhide, Ashkan Mirzaei, Ashley Chow, Ashna Khetan, Atharva Joshi, Barnaby Simkin, Benedikt Falk, Brett Hamilton, Carlos Casanova, Chaeyeon Chung, Charles Zhou, Chen-Hsan Lin, Chen-Hsuan Lin, Chhavi Nijhawan, Chieh-Yun Chen, Chintan Shah, Chris Helvig, Chris Pruett, Cindy Zha, Cyrus Hogg, Dahjung Chung, Dan Blick, David Wehr, Dawid Majchrowski, DeLesley Hutchins, Delin Qu, Dennis Lynch, Diego Garzon, Dima Zhylko, Durra Mohsin, Egor Krivov, Ekram Mukbil, Eric Cameracci, Fangyin Wei, Fengzhe Zhou, Francesco Ferroni, Freya Li, George Kurian, Gwanghyun Kim, Haaland Hao Liang, Hai Loc Lu, Hans Yang, Hao Liang, Hao Wang, Hesam Rabeti, Hugo Hadfield, Hyejin Moon, Itai Zadok, Jayjun Lee, Jeana Choi, JF Lafleche, Jiangran Lyu, Jiaojiao Fan, Jiaxiang Tang, Jibin Varghese, Jim Fan, Jingyi Jin, Jinwei Gu, Jon Allen, Joshua Bapst, Joyjit Daw, Julia Kiczka, Julian Ouyang, Kaichun Mo, Kayley Ting, Ke Ding, Kedi Wu, Kevin Brady, Kirill Motkov, Kristen Rumley, Krzysztof Tomala, Liang Feng, Liangkai Zhang, Ling Li, Louis Marcoux, Maciej Bala, Madison Huang, Magdalena Dadela, Mahesh Patekar, Marco Di Lucca, Marilyn Reeb, Mark Carlson, Martin Antolini, Mateusz Sieniawski, Matt Cragun, Meredith Price, Michael Huang, Miguel Guerrero, Miguel Martin, Min Shi, Ming-Yu Liu, Mohammad Harrim, Morteza Ramezanali, Mukesh Beladiya, Nalin Dadhich, Naomi Eigbe, Nathan Hayes-Roth, Nicole Drumheller, Nikhilesh Joshi, Omar Laymoun, Paris Zhang, Paula Ramos, Pawel Morkisz, Peter Gambrill, Pooya Jannaty, Pooya Khaloo, Pranjali Joshi, Qi Wang, Qianli Ma, Qiao Wang, Qing Miao, Qizhi Chen, Rahul Heinrich Steiger, Raju Wagwani, Robert Denomme, Rodrigo Vieira Del Monte, Roy Anthony, Ruqing Xu, Ryan Bernard, Ryan Ji, Saeid Motiian, Sandip Bhaskar, Sandra Skaff, Santanu Dutta, Saurav Kumar, Sehwi Park, Sergiy Fefilatyev, Shangkun Sun, Shangru Li, Shilin Zhu, Shreyas Misra, Shun Zhang, Shuran Song, Simon Yuen, Simon Zhang, Slawek Kierat, Smita Ithape, Soha Pouya, Sophia Huang, Stefanie Manzinger, Steven Baughman, Suneel Indupuru, Sunil Srinivasa, Sunny Kim, Tavish Chen, Thabang Ngazimbi, Thomas Volk, Tianwei She, Tiffany Cai, Ting-Chun Wang, TJ Galda, Tolou Tavakkoli, Tomasz Kornuta, Trung Pham, Tsung-Yi Lin, Vanni Brighella, Varun Praveen, Wei-Cheng Tseng, Wenjie Luo, Wesley Li, Wojciech Kutak, Wojciech Rymer, Xiangyu Lu, Xiaodong Yang, Xiaotong Chen, Xin Kong, Xinquan Xu, Xiu Chia, Xuning Yang, Yan Chang, Yan Wang, Yanan Jian, Yao Xu, Yashraj Narang, Yeongho Seol, Yichu Yang, Yifan Ding, Yihuai Gao, Yilin Zhao, Yin Cui, Yogesh Balaji, Yu Wang, Yu-Wei Chao, Yue Tang, Yufan Huang, Yuke Zhu, Yuliya Zhautouskaya, Yurong You, Yuzhu Dong, Zaid Pervaiz Bhat, Zekun Hao, Zhaoshuo Li, Zhizheng Zhang.

译自 Hugging Face · 官方博客 · 录于 二〇二六年六月一日