Hugging Face · Daily Papers

Nemotron 3 Nano Omni：高效开放的多模态智能

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

NVIDIA, Amala Sanjay Deshmukh, Kateryna Chumachenko, Tuomas Rintamaki, Matthieu Le, Tyler Poon, Danial Mohseni Taheri, Ilia Karmanov 等 217 位

来自 NVIDIA

二〇二六年五月一日 · arXiv:2604.24954 · PDF

摘要

我们介绍 Nemotron 3 Nano Omni，这是 Nemotron multimodal 系列的最新模型，也是该系列首个原生支持 audio 输入，并同时支持 text、images 和 video 的模型。得益于 architecture、training data 和 training recipe 的进展，Nemotron 3 Nano Omni 在所有 modality 上相较前代 Nemotron Nano V2 VL 都实现了稳定的 accuracy 提升。尤其是，Nemotron 3 在真实世界 document understanding、长 audio-video comprehension，以及 agentic computer use 方面取得了领先结果。

Nemotron 3 Nano Omni 基于高效的 Nemotron 3 Nano 30B-A3B backbone 构建，并进一步引入创新的 multimodal token-reduction 技术，使其相比其他相近规模的模型具备显著更低的 inference latency 和更高的 throughput。我们将发布 BF16、FP8 和 FP4 格式的 model checkpoint，以及部分 training data 和 codebase，以促进后续研究与开发。