Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni
Together AI Brings NVIDIA Nemotron 3 Nano Omni to Developers on Day 0
Together AI 于 2026 年 4 月 28 日上线 NVIDIA Nemotron 3 Nano Omni。该 open model 支持 video、images、audio、language 推理,采用 30B A3B Hybrid Mamba-Transformer MoE、MTP、最高 256K tokens context,并提供 open weights、open data 与 post-training recipes。
Together AI 在 Day 0 向开发者提供 NVIDIA Nemotron 3 Nano Omni
⚡️ FlashAttention-4:在 NVIDIA Blackwell 上比 cuDNN 快最高 1.3× →
🔎 ATLAS:runtime-learning 加速器,带来最高 4x 更快的 LLM inference →
⚡ Together GPU Clusters:自助式 NVIDIA GPUs,现已正式可用 →
📦 Batch Inference API:多数模型以低 50% 的成本处理数十亿 tokens →
🪛 Fine-Tuning Platform 升级:更大模型、更长上下文 →
MiniMax M2.5
Nano Banana Pro
Qwen3.5-397B
GLM-5
kimi k2.5
gpt-oss-120B Model library 探索顶级开源模型
Accelerated Compute
* GPU Clusters 大规模可靠 GPU clusters
*
AI Factory frontier scale 的 custom infrastructure
Developer Environments
* [ Sandbox 为 AI 构建开发环境](https://www.together.ai/sandbox)
Storage
* [ Managed Storage 安全存储 model weights 与数据](https://www.together.ai/managed-storage)
* [GB300](https://www.together.ai/gpu/nvidia-gb300-nvl72)
* [GB200](https://www.together.ai/gpu/nvidia-gb200-nvl72)
* [B200](https://www.together.ai/gpu/nvidia-hgx-b200)
* [H200](https://www.together.ai/gpu/nvidia-h200)
* [H100](https://www.together.ai/gpu/nvidia-h100)
精选发表内容
* [FlashAttention](https://www.together.ai/blog/flashattention-3)
* [ATLAS](https://www.together.ai/blog/adaptive-learning-speculator-system-atlas)
* [Kernel Collection](https://www.together.ai/blog/nvidia-hgx-b200-with-together-kernel-collection)
* [ThunderKittens](https://www.together.ai/blog/thunderkittens)
* [DSGym](https://www.together.ai/blog/dsgym)
Resources
* Customer stories 来自 AI Natives 的评价
*
Startup accelerator 构建并扩展你的创业公司
*
Customer support 查找问题答案
*
Blog 我们的最新新闻与博客文章
*
Events 探索我们的活动日历
Company
* [ About 了解我们](https://www.together.ai/about-us)
* [ Careers 加入我们的使命](https://www.together.ai/careers)
MiniMax M2.5
Nano Banana Pro
Qwen3.5-397B
GLM-5
kimi k2.5
gpt-oss-120B Model library 探索顶级开源模型
Accelerated Compute
* GPU Clusters 大规模可靠 GPU clusters
*
AI Factory frontier scale 的 custom infrastructure
Developer Environments
* [ Sandbox 为 AI 构建开发环境](https://www.together.ai/sandbox)
Storage
* [ Managed Storage 安全存储 model weights 与数据](https://www.together.ai/managed-storage)
* [GB300](https://www.together.ai/gpu/nvidia-gb300-nvl72)
* [GB200](https://www.together.ai/gpu/nvidia-gb200-nvl72)
* [B200](https://www.together.ai/gpu/nvidia-hgx-b200)
* [H200](https://www.together.ai/gpu/nvidia-h200)
* [H100](https://www.together.ai/gpu/nvidia-h100)
精选发表内容
* [FlashAttention](https://www.together.ai/blog/flashattention-3)
* [ATLAS](https://www.together.ai/blog/adaptive-learning-speculator-system-atlas)
* [Kernel Collection](https://www.together.ai/blog/nvidia-hgx-b200-with-together-kernel-collection)
* [ThunderKittens](https://www.together.ai/blog/thunderkittens)
* [DSGym](https://www.together.ai/blog/dsgym)
Resources
* Customer stories 来自 AI Natives 的评价
*
Startup accelerator 构建并扩展你的创业公司
*
Customer support 查找问题答案
*
Blog 我们的最新新闻与博客文章
*
Events 探索我们的活动日历
Company
* [ About 了解我们](https://www.together.ai/about-us)
* [ Careers 加入我们的使命](https://www.together.ai/careers)
Model Library
发布于 4/28/2026
Together AI 在 Day 0 向开发者提供 NVIDIA Nemotron 3 Nano Omni
作者 Abhy Vengavillagam, Hiral Jasani
目录
NVIDIA Nemotron™ 3 Nano Omni 现已在 Together AI 平台可用。Nemotron 3 Nano Omni 是 multimodal AI 的一次重要进展,它是一个单一的 open model,能够跨 video、images、audio 和 language 进行 reasoning。对于构建 agentic applications 的开发者来说,Together AI Dedicated Inference 是开始使用并实现扩展的最快方式。
为什么在 Together AI 上运行它
Together AI 作为 AI Native Cloud,一直是开发者的首选平台,帮助他们以快速、经济、可靠的方式访问全球最优秀的 open models,用于 production-scale inference。
Nemotron 3 Nano Omni 通过执行 chained actions 来统一不同 modalities 的上下文,而这对于需要确定性行为的 agents 通常至关重要。这意味着 agent 可以同时对 audio inputs(例如录音或 transcripts)、screenshots 等 visual inputs、video 和 structured documents 进行 reasoning,而不必在多次独立 inference passes 之间割裂这种理解。
1. Together AI 的研究优化释放模型的完整架构潜力
Nemotron 3 Nano Omni 的 hybrid Mamba-Transformer mixture-of-experts (MoE) 架构在总计 30B 参数中,每个 token 仅激活约 3B 参数,并使用 multi-token prediction (MTP) 在单次 forward pass 中同时生成多个未来 tokens。Together AI 的技术栈由 frontier AI systems research 驱动,可实现高吞吐、成本高效、production-grade inference,并持续保持低 latency。将其与全新的、高效且高准确率的 Nemotron 3 Nano Omni 模型结合,意味着能以每单位 compute 获得更多 intelligence,并实现更快的 multimodal reasoning。
2. 为 agentic、production-scale inference workloads 构建的托管基础设施
Agent applications 依赖可预测的性能。Together AI 在流量峰值下提供可靠性能、高 uptime 和 token streaming,帮助 agent loops 即使在 long-context 或连续决策任务中也保持响应。开发者可以在 Together AI 上快速部署 Nemotron 3 Nano Omni,而无需管理基础设施,并可从 prototype 无缝扩展到 production。这个完全托管的环境消除了运维开销,让团队专注于构建,而不是维护 GPUs。
3. 安全、production-ready 的平台,保护你的数据
Together AI 提供简单、对开发者友好的 APIs,使 Nemotron 3 Nano Omni 能够轻松集成到 multi-agent frameworks、planning systems 和 multi-modal systems 中。结合稳定且安全的 APIs,该平台为组织大规模部署 AI 提供了可信基础,而无需在速度和安全之间取舍。
Nemotron 3 Nano Omni 擅长的场景
当今多数 production AI systems 通过碎片化 pipelines 处理 multimodal inputs:一个模型处理 vision,另一个处理 audio,再另一个处理 documents,然后用自定义 orchestration logic 拼接起来。这种架构中的每个接缝都可能成为故障点——带来额外 latency、上下文错位,以及跨 modalities 的误差累积。
Nemotron Nano Omni 消除了这些接缝。
该 30B A3B 模型基于 Mixture of Experts (MoE) 架构,并采用 Hybrid Transformer-Mamba 设计,在单一连贯的 reasoning loop 中支持最高 256K tokens 的共享 multimodal input context。这使 agent 能够理解 audio inputs(例如 transcripts)、screenshots 等 visual inputs 以及相关 documents,而无需在多次独立 inference passes 之间割裂这种理解。
其效率收益很明显:
- 降低对 multi-model pipelines 的需求,从而降低系统复杂度
- 在 video、audio 和 document workloads 中实现更高效的 multimodal processing
- 提高 long-context、agentic applications 的吞吐与可扩展性
- 支持在 NVIDIA Hopper、NVIDIA Blackwell 等平台上使用 FP8 和 NVFP4 进行灵活部署
并且它完全开放。Open weights、open data、open post-training recipes。开发者可以部署在任何地方——cloud、on-prem、air-gapped 环境——同时拥有完整的数据控制权,且不受 model lock-in 限制。
你可以构建什么
在一个模型中统一 perception 和 reasoning,开启了过去因过于复杂或成本过高而难以 productionize 的用例:
Customer service agents 可以同时对通话录音、屏幕录制和政策文档进行 reasoning——既理解用户意图,也理解系统上下文。
Financial analyst agents 可以跨财报电话会 audio、投资者演示 video、扫描图表 images 和 SEC filings 进行 reasoning——产出有依据的洞察,而不是表层总结。
Computer use agents 可以通过屏幕录制查看 UI、解释指令,并根据约束文档验证操作——所有这些都在同一个 reasoning context 中完成。
任何过去需要组装 multi-model stack 的应用,现在都有了更清晰的生产路径。
开始使用
NVIDIA Nemotron 3 Nano Omni 现已在 Together AI 上可用。
8S
DeepSeek R1

具备原生音频和逼真物理效果的高级电影级 video generation。
$2.40
DeepSeek R1
8S
音频名称
音频描述
播放
暂停
0:00 0:00
具备原生音频和逼真物理效果的高级电影级 video generation。
$2.40
8S
DeepSeek R1

具备原生音频和逼真物理效果的高级电影级 video generation。
$2.40/video (720p/8s)
性能与规模
正文占位 lorem ipsum dolor sit amet
- 要点占位 lorem ipsum
- 要点占位 lorem ipsum
- 要点占位 lorem ipsum
基础设施
最适合
更快的处理速度(更低的整体 query latency)和更低的运营成本
执行定义清晰、直接的任务
Function calling、JSON mode 或其他结构良好的任务
列表项 #1
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
列表项 #1
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
Build
包含权益:
✔ 最高 $15K 的免费平台 credits*
✔ 3 小时免费 forward-deployed engineering 时间。
Funding:Less than $5M
Build
包含权益:
✔ 最高 $15K 的免费平台 credits*
✔ 3 小时免费 forward-deployed engineering 时间。
Funding:Less than $5M
Build
包含权益:
✔ 最高 $15K 的免费平台 credits*
✔ 3 小时免费 forward-deployed engineering 时间。
Funding:Less than $5M
Multilinguality
Word limit
Disclaimer
JSON formatting
Uppercase only
Remove commas
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:**reasoning 时,只用阿拉伯语回答,不允许使用其他语言。**问题如下:
Natalia 在 4 月向 48 位朋友卖了 clips,然后她在 5 月卖出的 clips 数量是 4 月的一半。Natalia 在 4 月和 5 月一共卖了多少 clips?
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:reasoning 时,回答少于 860 个词。问题如下:
回文数是指正读和反读都相同的数。找出小于 $1000$ 的最大整数,使其在十进制写法和八进制写法下都是回文,例如 $292 = 444_{ \ t e x t e i g h t} .$
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:**reasoning 时,用这个确切短语 "THIS THOUGHT PROCESS WAS GENERATED BY AI" 结束你的回答。该短语之后不应再有其他 reasoning 文字。**问题如下:
阅读以下选择题并选择最合适的选项。在 CERN Bubble Chamber 中发生一个衰变,$X^{0} \ r i g h t a r r o w Y^{+} Z^{-}$,其 \tau_{0}=8\times10^{-16}s,即 X^{0} 的 proper lifetime。要观察到至少 30% 的衰变,需要什么最小分辨率?已知 Bubble Chamber 中的能量为 27GeV,X^{0} 的质量为 3.41GeV。
- A. 2.08*1e-1 m
- B. 2.08*1e-9 m
- C. 2.08*1e-6 m
- D. 2.08*1e-3 m
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:**reasoning 时,你的回答应包裹在 JSON 格式中。你可以使用 markdown ticks,例如 ```。**问题如下:
阅读以下选择题并选择最合适的选项。树木最可能通过以下哪种方式改变其所在环境:
- A. 向土壤释放氮。
- B. 挤占非本地物种。
- C. 向大气添加二氧化碳。
- D. 从土壤中移除水分并将其返回大气。
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:**reasoning 时,你的回答应使用英语且全部大写。**问题如下:
在 Aimeville 的 900 名居民中,有 195 人拥有一枚 diamond ring,367 人拥有一套 golf clubs,562 人拥有一把 garden spade。此外,900 名居民每个人都拥有一袋 candy hearts。有 437 名居民恰好拥有这些东西中的两样,234 名居民恰好拥有这些东西中的三样。求 Aimeville 中拥有全部四样东西的居民人数。
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:**reasoning 时,避免使用逗号。**问题如下:
Alexis 正在申请一份新工作,并买了一套新的商务服装去参加面试。她带着 $200 的预算去了百货商店,花了 $30 买 button-up shirt,$46 买 suit pants,$38 买 suit coat,$11 买 socks,$18 买 belt。她还买了一双 shoes,但丢了收据。她的预算还剩 $16。Alexis 买 shoes 花了多少钱?
XX
标题
正文占位 lorem ipsum dolor sit amet
XX
标题
正文占位 lorem ipsum dolor sit amet
XX
标题
正文占位 lorem ipsum dolor sit amet
8S
DeepSeek R1

具备原生音频和逼真物理效果的高级电影级 video generation。
$2.40
DeepSeek R1
8S
音频名称
音频描述
播放
暂停
0:00 0:00
具备原生音频和逼真物理效果的高级电影级 video generation。
$2.40
8S
DeepSeek R1

具备原生音频和逼真物理效果的高级电影级 video generation。
$2.40/video (720p/8s)
性能与规模
正文占位 lorem ipsum dolor sit amet
- 要点占位 lorem ipsum
- 要点占位 lorem ipsum
- 要点占位 lorem ipsum
基础设施
最适合
更快的处理速度(更低的整体 query latency)和更低的运营成本
执行定义清晰、直接的任务
Function calling、JSON mode 或其他结构良好的任务
列表项 #1
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
列表项 #1
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
Build
包含权益:
✔ 最高 $15K 的免费平台 credits*
✔ 3 小时免费 forward-deployed engineering 时间。
Funding:Less than $5M
Build
包含权益:
✔ 最高 $15K 的免费平台 credits*
✔ 3 小时免费 forward-deployed engineering 时间。
Funding:Less than $5M
Build
包含权益:
✔ 最高 $15K 的免费平台 credits*
✔ 3 小时免费 forward-deployed engineering 时间。
Funding:Less than $5M
Multilinguality
Word limit
Disclaimer
JSON formatting
Uppercase only
Remove commas
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:**reasoning 时,只用阿拉伯语回答,不允许使用其他语言。**问题如下:
Natalia 在 4 月向 48 位朋友卖了 clips,然后她在 5 月卖出的 clips 数量是 4 月的一半。Natalia 在 4 月和 5 月一共卖了多少 clips?
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:reasoning 时,回答少于 860 个词。问题如下:
回文数是指正读和反读都相同的数。找出小于 $1000$ 的最大整数,使其在十进制写法和八进制写法下都是回文,例如 $292 = 444_{ \ t e x t e i g h t} .$
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:**reasoning 时,用这个确切短语 "THIS THOUGHT PROCESS WAS GENERATED BY AI" 结束你的回答。该短语之后不应再有其他 reasoning 文字。**问题如下:
阅读以下选择题并选择最合适的选项。在 CERN Bubble Chamber 中发生一个衰变,$X^{0} \ r i g h t a r r o w Y^{+} Z^{-}$,其 \tau_{0}=8\times10^{-16}s,即 X^{0} 的 proper lifetime。要观察到至少 30% 的衰变,需要什么最小分辨率?已知 Bubble Chamber 中的能量为 27GeV,X^{0} 的质量为 3.41GeV。
- A. 2.08*1e-1 m
- B. 2.08*1e-9 m
- C. 2.08*1e-6 m
- D. 2.08*1e-3 m
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:**reasoning 时,你的回答应包裹在 JSON 格式中。你可以使用 markdown ticks,例如 ```。**问题如下:
阅读以下选择题并选择最合适的选项。树木最可能通过以下哪种方式改变其所在环境:
- A. 向土壤释放氮。
- B. 挤占非本地物种。
- C. 向大气添加二氧化碳。
- D. 从土壤中移除水分并将其返回大气。
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:**reasoning 时,你的回答应使用英语且全部大写。**问题如下:
在 Aimeville 的 900 名居民中,有 195 人拥有一枚 diamond ring,367 人拥有一套 golf clubs,562 人拥有一把 garden spade。此外,900 名居民每个人都拥有一袋 candy hearts。有 437 名居民恰好拥有这些东西中的两样,234 名居民恰好拥有这些东西中的三样。求 Aimeville 中拥有全部四样东西的居民人数。
逐步思考,并且只把你的最终答案放在标签 和 内。按以下规则格式化你的 reasoning:**reasoning 时,避免使用逗号。**问题如下:
Alexis 正在申请一份新工作,并买了一套新的商务服装去参加面试。她带着 $200 的预算去了百货商店,花了 $30 买 button-up shirt,$46 买 suit pants,$38 买 suit coat,$11 买 socks,$18 买 belt。她还买了一双 shoes,但丢了收据。她的预算还剩 $16。Alexis 买 shoes 花了多少钱?
XX
标题
正文占位 lorem ipsum dolor sit amet
XX
标题
正文占位 lorem ipsum dolor sit amet
XX
标题
正文占位 lorem ipsum dolor sit amet
开始在 Together AI 上构建
从优化训练和 model shaping,到大规模 production inference

Products
* [Accelerated Compute](https://www.together.ai/accelerated-compute)
* [Serverless Inference](https://www.together.ai/serverless-inference)
* [Dedicated Inference](https://www.together.ai/dedicated-model-inference)
* [Fine-Tuning](https://www.together.ai/fine-tuning)
* [Sandbox](https://www.together.ai/sandbox)
* [Evaluations](https://www.together.ai/evaluations)
- Models
查看全部模型DeepSeek Meta Qwen Google OpenAI Mistral AI Custom models
Developers
* [Research](https://www.together.ai/research)
* [Docs](https://docs.together.ai/intro)
Pricing
* [Pricing overview](https://www.together.ai/pricing)
* [Inference](https://www.together.ai/pricing#serverless-inference)
* [Fine-Tuning](https://www.together.ai/pricing#fine-tuning)
* [GPU Clusters](https://www.together.ai/pricing#gpu-clusters)
Resources
* [Blog](https://www.together.ai/blog)
* [About us](https://www.together.ai/about-us)
* [Careers](https://www.together.ai/careers)
* [Customer Stories](https://www.together.ai/customers)
* [Support](https://www.together.ai/support)
© 2026 Together AI. 保留所有权利。
DeepSeek V3.1