一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

Nemotron 3 Nano Omni:高效开放的多模态智能

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

NVIDIA, Amala Sanjay Deshmukh, Kateryna Chumachenko, Tuomas Rintamaki, Matthieu Le, Tyler Poon, Danial Mohseni Taheri, Ilia Karmanov 等 217 位
来自 NVIDIA
二〇二六年五月一日 · arXiv:2604.24954 · PDF

我们介绍 Nemotron 3 Nano Omni,这是 Nemotron multimodal 系列的最新模型,也是该系列首个原生支持 audio 输入,并同时支持 text、images 和 video 的模型。得益于 architecture、training data 和 training recipe 的进展,Nemotron 3 Nano Omni 在所有 modality 上相较前代 Nemotron Nano V2 VL 都实现了稳定的 accuracy 提升。尤其是,Nemotron 3 在真实世界 document understanding、长 audio-video comprehension,以及 agentic computer use 方面取得了领先结果。

Nemotron 3 Nano Omni 基于高效的 Nemotron 3 Nano 30B-A3B backbone 构建,并进一步引入创新的 multimodal token-reduction 技术,使其相比其他相近规模的模型具备显著更低的 inference latency 和更高的 throughput。我们将发布 BF16、FP8 和 FP4 格式的 model checkpoint,以及部分 training data 和 codebase,以促进后续研究与开发。

译自 Hugging Face · Daily Papers · arXiv:2604.24954 · 录于 二〇二六年五月一日