一声棒喝,本不立文字
偏要著録,已是二义

aws-ml

NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用

NVIDIA Nemotron 3 Nano Omni model now available on Amazon SageMaker JumpStart

二〇二六年五月八日 · 英文原文

NVIDIA Nemotron 3 Nano Omni 已在 Amazon SageMaker JumpStart day zero 可用。该 30B A3B multimodal model 采用 Mamba2 Transformer Hybrid MoE,整合 Nemotron 3 Nano LLM、CRADIO v4-H 和 Parakeet,支持 video、audio、image、text 输入及 131K context,可通过 Studio 或 SageMaker Python SDK 部署。

今天,我们很高兴宣布 NVIDIA Nemotron 3 Nano Omni 在 Amazon SageMaker JumpStart 上实现 day zero 可用。NVIDIA 的这款 multimodal model 将 video、audio、image 和 text 理解整合到一个高效架构中,使企业客户能够构建可看、可听,并能在一次 inference pass 中跨 modality 推理的智能应用。在本文中,我们将介绍 Nemotron 3 Nano Omni 的模型架构和关键能力,探讨它解锁的企业用例,并展示如何使用 Amazon SageMaker JumpStart 进行部署和 inference。

Overview of NVIDIA Nemotron 3 Nano Omni

NVIDIA Nemotron 3 Nano Omni 是一个开放的 multimodal large language model,总参数量为 30 billion,活跃参数量为 3 billion(30B A3B)。它基于 Mamba2 Transformer Hybrid Mixture of Experts(MoE)架构构建,结合了三个核心组件:

这一统一架构以 video、audio、image 和 text 作为输入,并生成 text 作为输出。它支持 131K token context length、chain of thought reasoning、tool calling、JSON output,以及 transcription 任务中的 word level timestamps。该模型在 SageMaker JumpStart 上以 FP8 precision 提供,可在企业 workload 中实现 accuracy 与 efficiency 的平衡。它基于 NVIDIA Open Model Agreement 授权,可用于商业用途。

企业 agent workflow 天然是 multimodal 的。Agent 必须理解屏幕、文档、audio、video 和 text,并且常常需要在同一个推理循环中完成这些工作。如今,大多数 agentic system 会将 vision、speech 和 language 的独立模型拼接在一起。这种方法会因重复 inference pass 而增加 latency,使 orchestration 和错误处理更加复杂,让不同 modality 的 context 变得割裂,并随着时间推移放大 cost 和 failure mode。

Nemotron 3 Nano Omni 通过在 agent system 中充当 multimodal perception 和 context sub-agent 来解决这一问题。它为 agent system 提供“眼睛和耳朵”:读取屏幕、解释文档、转写 speech、分析 video,同时在多个 reasoning loop 中维持汇聚后的 multimodal context。

Nano Omni 能在单个 reasoning loop 中理解屏幕、文档、audio 和 video。这取代了碎片化的模型栈,并显著简化了 agent workflow 设计。对于构建 agentic architecture 的团队来说,这相当于将 inference hop、orchestration logic 和跨模型同步开销压缩为一次模型调用。

该模型支持以下输入类型:

Input Type Supported Formats Constraints
Video mp4 最长 2 分钟,最多 256 frames
Audio wav, mp3 最长 1 小时,8kHz+ sampling rate
Image JPEG, PNG(RGB) 标准分辨率
Text String 最多 131K context

Enterprise use cases

Nemotron 3 Nano Omni 的 multimodal 能力使其成为企业用例中强大而灵活的模型选择。

Computer use agents

Nemotron 3 Nano Omni 可为在 graphical user interface 中导航的 agent 提供 perception loop。它读取屏幕,随着时间理解 UI state,并验证结果;执行类 agent 则负责执行动作。这将 vision 和 reasoning 合并到单个 loop 中,消除了拆分 perception pipeline 的需求。实际应用包括 incident management dashboard、agentic search、browser automation 和 email workflow agent。

Document intelligence

该模型能够解释文档、图表、表格、截图和 mixed media input,使 agent 能够围绕视觉结构和文本内容进行连贯推理。这对于涉及合同、statement of work、财务文件和科学文献的企业分析与合规 workflow 至关重要。

Audio and video understanding agents

在 customer service、research 和 monitoring workflow 中,Nemotron 3 Nano Omni 可以维持连续的 audio 和 video context。它把说过的内容、展示的内容和记录的内容连接到同一条 reasoning stream 中,而不是生成彼此割裂的 summary。这支持 meeting recording analysis、media and entertainment asset management、drive-thru order verification,以及 customer service video review 等应用,例如通过 OCR 验证某个地址的包裹投递情况。

Getting started with SageMaker JumpStart

你可以通过几个步骤在 Amazon SageMaker JumpStart 中部署 Nemotron 3 Nano Omni。SageMaker JumpStart 提供 foundation model 的一键部署和优化后的 inference container,无需管理基础设施、配置 serving framework,或处理模型 artifact 下载。

Prerequisites

开始之前,请确保你具备:

Deploy using SageMaker Studio

  1. 打开 Amazon SageMaker Studio
  2. 在左侧导航窗格中选择 JumpStart
  3. 搜索 Nemotron 3 Nano Omni
  4. 选择 model card,然后选择 Deploy
  5. 配置 instance type 和 deployment settings
  6. 选择 Deploy 以创建 endpoint

Deploy using the SageMaker Python SDK

你也可以使用 SageMaker Python SDK 以编程方式部署:

from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
    model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
    role=" ",
)

predictor = model.deploy(
    accept_eula=True,
)

Run inference: Image understanding

部署完成后,你可以向 endpoint 发送 multimodal request。以下示例展示了如何发送 image understanding request:

import base64

def encode_image(image_path):
    with open(image_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_b64 = encode_image("example.jpg")

payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "text", "text": "Describe this image in detail."},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
        ],
    }],
    "max_tokens": 1024,
    "temperature": 0.2,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Run inference: Video understanding with reasoning

import base64

def encode_video(video_path):
    with open(video_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

video_b64 = encode_video("meeting_recording.mp4")

payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
            {"type": "text", "text": "Summarize the key discussion points."},
        ],
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Run inference: Audio transcription

import base64

def encode_audio(audio_path):
    with open(audio_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

audio_b64 = encode_audio("customer_call.wav")

payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "audio_url", "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
            {"type": "text", "text": "Transcribe this audio and identify key action items."},
        ],
    }],
    "max_tokens": 1024,
    "temperature": 0.2,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Recommended inference parameters

下表包含 Omni inference request 推荐使用的 hyperparameter 值。这些值会根据 inference mode 变化。

Mode Temperature top_p max_tokens Use Case
Thinking 0.6 0.95 20480 复杂推理
Instruct 0.2 N/A 1024 通用任务、ASR

对于涉及 reasoning 和复杂理解的任务,我们建议启用 thinking mode。对于 transcription 和直接任务,instruct mode(禁用 thinking)可以提供更快响应。

Clean up

为避免产生不必要费用,请在使用完成后删除 SageMaker endpoint:

predictor.delete_endpoint()

Conclusion

NVIDIA Nemotron 3 Nano Omni 为 Amazon SageMaker JumpStart 带来了新的 multimodal intelligence 能力。通过将 video、audio、image 和 text 理解统一到一个高效模型中,它简化了企业 agentic application 的开发,同时相比其他开放 omni model,提供领先的 accuracy 和最高 9x 的吞吐量提升。

无论你是在构建可导航 GUI 的 computer use agent、面向合规 workflow 的 document intelligence pipeline,还是面向 customer service 的 audio 和 video analysis system,Nemotron 3 Nano Omni 都能通过一次模型调用,为你的 agent 提供所需的 perception layer。

立即从 Amazon SageMaker JumpStart 部署 Nemotron 3 Nano Omni,开始使用。有关该模型的更多信息,请访问 Hugging Face 上的 NVIDIA Nemotron model page。

About the authors

Dan Ferguson 是 AWS 的 Solutions Architect,常驻美国纽约。作为 machine learning services expert,Dan 致力于支持客户高效、有效且可持续地集成 ML workflow。

Malav Shastri 是 AWS 的 Software Development Engineer,任职于 Amazon SageMaker JumpStart 和 Amazon Bedrock 团队。他的工作重点是帮助客户利用 SOTA open source 和 proprietary foundation model,以及传统 machine learning algorithm。Malav 拥有 Computer Science 硕士学位。

Vivek Gangasani 是 SageMaker Inference 的 Worldwide Leader for Solutions Architecture。他负责 SageMaker Inference 的 Solution Architecture、Technical Go-to-Market(GTM)和 Outbound Product strategy。他还帮助企业和 startup 部署并优化 GenAI model,并使用 SageMaker 和 GPU 构建 AI workflow。目前,他专注于制定 inference performance 优化策略与内容,以及 Agentic workflow、RAG 等 use case。业余时间,Vivek 喜欢徒步、看电影和尝试不同菜系。

译自 aws-ml · 录于 二〇二六年五月八日