NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用
NVIDIA Nemotron 3 Nano Omni model now available on Amazon SageMaker JumpStart
NVIDIA Nemotron 3 Nano Omni 已在 Amazon SageMaker JumpStart day zero 可用。该 30B A3B multimodal model 采用 Mamba2 Transformer Hybrid MoE,整合 Nemotron 3 Nano LLM、CRADIO v4-H 和 Parakeet,支持 video、audio、image、text 输入及 131K context,可通过 Studio 或 SageMaker Python SDK 部署。
今天,我们很高兴宣布 NVIDIA Nemotron 3 Nano Omni 在 Amazon SageMaker JumpStart 上实现 day zero 可用。NVIDIA 的这款 multimodal model 将 video、audio、image 和 text 理解整合到一个高效架构中,使企业客户能够构建可看、可听,并能在一次 inference pass 中跨 modality 推理的智能应用。在本文中,我们将介绍 Nemotron 3 Nano Omni 的模型架构和关键能力,探讨它解锁的企业用例,并展示如何使用 Amazon SageMaker JumpStart 进行部署和 inference。
Overview of NVIDIA Nemotron 3 Nano Omni
NVIDIA Nemotron 3 Nano Omni 是一个开放的 multimodal large language model,总参数量为 30 billion,活跃参数量为 3 billion(30B A3B)。它基于 Mamba2 Transformer Hybrid Mixture of Experts(MoE)架构构建,结合了三个核心组件:
- Nemotron 3 Nano LLM 作为 language backbone
- CRADIO v4-H 作为 image 和 video 理解的 vision encoder
- Parakeet 作为 audio transcription 和 comprehension 的 speech encoder
这一统一架构以 video、audio、image 和 text 作为输入,并生成 text 作为输出。它支持 131K token context length、chain of thought reasoning、tool calling、JSON output,以及 transcription 任务中的 word level timestamps。该模型在 SageMaker JumpStart 上以 FP8 precision 提供,可在企业 workload 中实现 accuracy 与 efficiency 的平衡。它基于 NVIDIA Open Model Agreement 授权,可用于商业用途。
企业 agent workflow 天然是 multimodal 的。Agent 必须理解屏幕、文档、audio、video 和 text,并且常常需要在同一个推理循环中完成这些工作。如今,大多数 agentic system 会将 vision、speech 和 language 的独立模型拼接在一起。这种方法会因重复 inference pass 而增加 latency,使 orchestration 和错误处理更加复杂,让不同 modality 的 context 变得割裂,并随着时间推移放大 cost 和 failure mode。
Nemotron 3 Nano Omni 通过在 agent system 中充当 multimodal perception 和 context sub-agent 来解决这一问题。它为 agent system 提供“眼睛和耳朵”:读取屏幕、解释文档、转写 speech、分析 video,同时在多个 reasoning loop 中维持汇聚后的 multimodal context。
Nano Omni 能在单个 reasoning loop 中理解屏幕、文档、audio 和 video。这取代了碎片化的模型栈,并显著简化了 agent workflow 设计。对于构建 agentic architecture 的团队来说,这相当于将 inference hop、orchestration logic 和跨模型同步开销压缩为一次模型调用。
该模型支持以下输入类型:
| Input Type | Supported Formats | Constraints |
|---|---|---|
| Video | mp4 | 最长 2 分钟,最多 256 frames |
| Audio | wav, mp3 | 最长 1 小时,8kHz+ sampling rate |
| Image | JPEG, PNG(RGB) | 标准分辨率 |
| Text | String | 最多 131K context |
Enterprise use cases
Nemotron 3 Nano Omni 的 multimodal 能力使其成为企业用例中强大而灵活的模型选择。
Computer use agents
Nemotron 3 Nano Omni 可为在 graphical user interface 中导航的 agent 提供 perception loop。它读取屏幕,随着时间理解 UI state,并验证结果;执行类 agent 则负责执行动作。这将 vision 和 reasoning 合并到单个 loop 中,消除了拆分 perception pipeline 的需求。实际应用包括 incident management dashboard、agentic search、browser automation 和 email workflow agent。
Document intelligence
该模型能够解释文档、图表、表格、截图和 mixed media input,使 agent 能够围绕视觉结构和文本内容进行连贯推理。这对于涉及合同、statement of work、财务文件和科学文献的企业分析与合规 workflow 至关重要。
Audio and video understanding agents
在 customer service、research 和 monitoring workflow 中,Nemotron 3 Nano Omni 可以维持连续的 audio 和 video context。它把说过的内容、展示的内容和记录的内容连接到同一条 reasoning stream 中,而不是生成彼此割裂的 summary。这支持 meeting recording analysis、media and entertainment asset management、drive-thru order verification,以及 customer service video review 等应用,例如通过 OCR 验证某个地址的包裹投递情况。
Getting started with SageMaker JumpStart
你可以通过几个步骤在 Amazon SageMaker JumpStart 中部署 Nemotron 3 Nano Omni。SageMaker JumpStart 提供 foundation model 的一键部署和优化后的 inference container,无需管理基础设施、配置 serving framework,或处理模型 artifact 下载。
Prerequisites
开始之前,请确保你具备:
- 一个 AWS account
- 针对 SageMaker JumpStart 的适当权限范围
- 足够的 GPU instance service quota(例如 ml.p4d.24xlarge 或 ml.p5.48xlarge)
Deploy using SageMaker Studio
- 打开 Amazon SageMaker Studio
- 在左侧导航窗格中选择 JumpStart
- 搜索 Nemotron 3 Nano Omni
- 选择 model card,然后选择 Deploy
- 配置 instance type 和 deployment settings
- 选择 Deploy 以创建 endpoint
Deploy using the SageMaker Python SDK
你也可以使用 SageMaker Python SDK 以编程方式部署:
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
role=" ",
)
predictor = model.deploy(
accept_eula=True,
)
Run inference: Image understanding
部署完成后,你可以向 endpoint 发送 multimodal request。以下示例展示了如何发送 image understanding request:
import base64
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_b64 = encode_image("example.jpg")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Describe this image in detail."},
{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Run inference: Video understanding with reasoning
import base64
def encode_video(video_path):
with open(video_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
video_b64 = encode_video("meeting_recording.mp4")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
{"type": "text", "text": "Summarize the key discussion points."},
],
}],
"max_tokens": 20480,
"temperature": 0.6,
"top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Run inference: Audio transcription
import base64
def encode_audio(audio_path):
with open(audio_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
audio_b64 = encode_audio("customer_call.wav")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "audio_url", "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
{"type": "text", "text": "Transcribe this audio and identify key action items."},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Recommended inference parameters
下表包含 Omni inference request 推荐使用的 hyperparameter 值。这些值会根据 inference mode 变化。
| Mode | Temperature | top_p | max_tokens | Use Case |
|---|---|---|---|---|
| Thinking | 0.6 | 0.95 | 20480 | 复杂推理 |
| Instruct | 0.2 | N/A | 1024 | 通用任务、ASR |
对于涉及 reasoning 和复杂理解的任务,我们建议启用 thinking mode。对于 transcription 和直接任务,instruct mode(禁用 thinking)可以提供更快响应。
Clean up
为避免产生不必要费用,请在使用完成后删除 SageMaker endpoint:
predictor.delete_endpoint()
Conclusion
NVIDIA Nemotron 3 Nano Omni 为 Amazon SageMaker JumpStart 带来了新的 multimodal intelligence 能力。通过将 video、audio、image 和 text 理解统一到一个高效模型中,它简化了企业 agentic application 的开发,同时相比其他开放 omni model,提供领先的 accuracy 和最高 9x 的吞吐量提升。
无论你是在构建可导航 GUI 的 computer use agent、面向合规 workflow 的 document intelligence pipeline,还是面向 customer service 的 audio 和 video analysis system,Nemotron 3 Nano Omni 都能通过一次模型调用,为你的 agent 提供所需的 perception layer。
立即从 Amazon SageMaker JumpStart 部署 Nemotron 3 Nano Omni,开始使用。有关该模型的更多信息,请访问 Hugging Face 上的 NVIDIA Nemotron model page。
About the authors
Dan Ferguson 是 AWS 的 Solutions Architect,常驻美国纽约。作为 machine learning services expert,Dan 致力于支持客户高效、有效且可持续地集成 ML workflow。
Malav Shastri 是 AWS 的 Software Development Engineer,任职于 Amazon SageMaker JumpStart 和 Amazon Bedrock 团队。他的工作重点是帮助客户利用 SOTA open source 和 proprietary foundation model,以及传统 machine learning algorithm。Malav 拥有 Computer Science 硕士学位。
Vivek Gangasani 是 SageMaker Inference 的 Worldwide Leader for Solutions Architecture。他负责 SageMaker Inference 的 Solution Architecture、Technical Go-to-Market(GTM)和 Outbound Product strategy。他还帮助企业和 startup 部署并优化 GenAI model,并使用 SageMaker 和 GPU 构建 AI workflow。目前,他专注于制定 inference performance 优化策略与内容,以及 Agentic workflow、RAG 等 use case。业余时间,Vivek 喜欢徒步、看电影和尝试不同菜系。