aws-ml

NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用

NVIDIA Nemotron 3 Nano Omni model now available on Amazon SageMaker JumpStart

二〇二六年五月八日 · 英文原文

摘要

NVIDIA Nemotron 3 Nano Omni 已在 Amazon SageMaker JumpStart day zero 可用。该 30B A3B multimodal model 采用 Mamba2 Transformer Hybrid MoE，整合 Nemotron 3 Nano LLM、CRADIO v4-H 和 Parakeet，支持 video、audio、image、text 输入及 131K context，可通过 Studio 或 SageMaker Python SDK 部署。

今天，我们很高兴宣布 NVIDIA Nemotron 3 Nano Omni 在 Amazon SageMaker JumpStart 上实现 day zero 可用。NVIDIA 的这款 multimodal model 将 video、audio、image 和 text 理解整合到一个高效架构中，使企业客户能够构建可看、可听，并能在一次 inference pass 中跨 modality 推理的智能应用。在本文中，我们将介绍 Nemotron 3 Nano Omni 的模型架构和关键能力，探讨它解锁的企业用例，并展示如何使用 Amazon SageMaker JumpStart 进行部署和 inference。

Overview of NVIDIA Nemotron 3 Nano Omni

NVIDIA Nemotron 3 Nano Omni 是一个开放的 multimodal large language model，总参数量为 30 billion，活跃参数量为 3 billion（30B A3B）。它基于 Mamba2 Transformer Hybrid Mixture of Experts（MoE）架构构建，结合了三个核心组件：

Nemotron 3 Nano LLM 作为 language backbone
CRADIO v4-H 作为 image 和 video 理解的 vision encoder
Parakeet 作为 audio transcription 和 comprehension 的 speech encoder

这一统一架构以 video、audio、image 和 text 作为输入，并生成 text 作为输出。它支持 131K token context length、chain of thought reasoning、tool calling、JSON output，以及 transcription 任务中的 word level timestamps。该模型在 SageMaker JumpStart 上以 FP8 precision 提供，可在企业 workload 中实现 accuracy 与 efficiency 的平衡。它基于 NVIDIA Open Model Agreement 授权，可用于商业用途。

企业 agent workflow 天然是 multimodal 的。Agent 必须理解屏幕、文档、audio、video 和 text，并且常常需要在同一个推理循环中完成这些工作。如今，大多数 agentic system 会将 vision、speech 和 language 的独立模型拼接在一起。这种方法会因重复 inference pass 而增加 latency，使 orchestration 和错误处理更加复杂，让不同 modality 的 context 变得割裂，并随着时间推移放大 cost 和 failure mode。

Nemotron 3 Nano Omni 通过在 agent system 中充当 multimodal perception 和 context sub-agent 来解决这一问题。它为 agent system 提供“眼睛和耳朵”：读取屏幕、解释文档、转写 speech、分析 video，同时在多个 reasoning loop 中维持汇聚后的 multimodal context。

Nano Omni 能在单个 reasoning loop 中理解屏幕、文档、audio 和 video。这取代了碎片化的模型栈，并显著简化了 agent workflow 设计。对于构建 agentic architecture 的团队来说，这相当于将 inference hop、orchestration logic 和跨模型同步开销压缩为一次模型调用。

该模型支持以下输入类型：

Input Type	Supported Formats	Constraints
Video	mp4	最长 2 分钟，最多 256 frames
Audio	wav, mp3	最长 1 小时，8kHz+ sampling rate
Image	JPEG, PNG（RGB）	标准分辨率
Text	String	最多 131K context

Enterprise use cases

Nemotron 3 Nano Omni 的 multimodal 能力使其成为企业用例中强大而灵活的模型选择。

Computer use agents

Nemotron 3 Nano Omni 可为在 graphical user interface 中导航的 agent 提供 perception loop。它读取屏幕，随着时间理解 UI state，并验证结果；执行类 agent 则负责执行动作。这将 vision 和 reasoning 合并到单个 loop 中，消除了拆分 perception pipeline 的需求。实际应用包括 incident management dashboard、agentic search、browser automation 和 email workflow agent。

Document intelligence

该模型能够解释文档、图表、表格、截图和 mixed media input，使 agent 能够围绕视觉结构和文本内容进行连贯推理。这对于涉及合同、statement of work、财务文件和科学文献的企业分析与合规 workflow 至关重要。

Audio and video understanding agents

在 customer service、research 和 monitoring workflow 中，Nemotron 3 Nano Omni 可以维持连续的 audio 和 video context。它把说过的内容、展示的内容和记录的内容连接到同一条 reasoning stream 中，而不是生成彼此割裂的 summary。这支持 meeting recording analysis、media and entertainment asset management、drive-thru order verification，以及 customer service video review 等应用，例如通过 OCR 验证某个地址的包裹投递情况。

Getting started with SageMaker JumpStart

你可以通过几个步骤在 Amazon SageMaker JumpStart 中部署 Nemotron 3 Nano Omni。SageMaker JumpStart 提供 foundation model 的一键部署和优化后的 inference container，无需管理基础设施、配置 serving framework，或处理模型 artifact 下载。

Prerequisites

开始之前，请确保你具备：

一个 AWS account
针对 SageMaker JumpStart 的适当权限范围
足够的 GPU instance service quota（例如 ml.p4d.24xlarge 或 ml.p5.48xlarge）

Deploy using SageMaker Studio

打开 Amazon SageMaker Studio
在左侧导航窗格中选择 JumpStart
搜索 Nemotron 3 Nano Omni
选择 model card，然后选择 Deploy
配置 instance type 和 deployment settings
选择 Deploy 以创建 endpoint

Deploy using the SageMaker Python SDK

你也可以使用 SageMaker Python SDK 以编程方式部署：

from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
    model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
    role=" ",
)

predictor = model.deploy(
    accept_eula=True,
)

Run inference: Image understanding

部署完成后，你可以向 endpoint 发送 multimodal request。以下示例展示了如何发送 image understanding request：

import base64

def encode_image(image_path):
    with open(image_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_b64 = encode_image("example.jpg")

payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "text", "text": "Describe this image in detail."},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
        ],
    }],
    "max_tokens": 1024,
    "temperature": 0.2,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Run inference: Video understanding with reasoning

import base64

def encode_video(video_path):
    with open(video_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

video_b64 = encode_video("meeting_recording.mp4")

payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
            {"type": "text", "text": "Summarize the key discussion points."},
        ],
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Run inference: Audio transcription

import base64

def encode_audio(audio_path):
    with open(audio_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

audio_b64 = encode_audio("customer_call.wav")

payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "audio_url", "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
            {"type": "text", "text": "Transcribe this audio and identify key action items."},
        ],
    }],
    "max_tokens": 1024,
    "temperature": 0.2,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Recommended inference parameters

下表包含 Omni inference request 推荐使用的 hyperparameter 值。这些值会根据 inference mode 变化。

Mode	Temperature	top_p	max_tokens	Use Case
Thinking	0.6	0.95	20480	复杂推理
Instruct	0.2	N/A	1024	通用任务、ASR

对于涉及 reasoning 和复杂理解的任务，我们建议启用 thinking mode。对于 transcription 和直接任务，instruct mode（禁用 thinking）可以提供更快响应。

Clean up

为避免产生不必要费用，请在使用完成后删除 SageMaker endpoint：

predictor.delete_endpoint()

Conclusion

NVIDIA Nemotron 3 Nano Omni 为 Amazon SageMaker JumpStart 带来了新的 multimodal intelligence 能力。通过将 video、audio、image 和 text 理解统一到一个高效模型中，它简化了企业 agentic application 的开发，同时相比其他开放 omni model，提供领先的 accuracy 和最高 9x 的吞吐量提升。

无论你是在构建可导航 GUI 的 computer use agent、面向合规 workflow 的 document intelligence pipeline，还是面向 customer service 的 audio 和 video analysis system，Nemotron 3 Nano Omni 都能通过一次模型调用，为你的 agent 提供所需的 perception layer。

立即从 Amazon SageMaker JumpStart 部署 Nemotron 3 Nano Omni，开始使用。有关该模型的更多信息，请访问 Hugging Face 上的 NVIDIA Nemotron model page。

About the authors

Dan Ferguson 是 AWS 的 Solutions Architect，常驻美国纽约。作为 machine learning services expert，Dan 致力于支持客户高效、有效且可持续地集成 ML workflow。

Malav Shastri 是 AWS 的 Software Development Engineer，任职于 Amazon SageMaker JumpStart 和 Amazon Bedrock 团队。他的工作重点是帮助客户利用 SOTA open source 和 proprietary foundation model，以及传统 machine learning algorithm。Malav 拥有 Computer Science 硕士学位。

Vivek Gangasani 是 SageMaker Inference 的 Worldwide Leader for Solutions Architecture。他负责 SageMaker Inference 的 Solution Architecture、Technical Go-to-Market（GTM）和 Outbound Product strategy。他还帮助企业和 startup 部署并优化 GenAI model，并使用 SageMaker 和 GPU 构建 AI workflow。目前，他专注于制定 inference performance 优化策略与内容，以及 Agentic workflow、RAG 等 use case。业余时间，Vivek 喜欢徒步、看电影和尝试不同菜系。

译自 aws-ml · 录于二〇二六年五月八日