Nemotron 3.5 内容安全：面向全球企业 AI 的可定制多模态安全

Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI

二〇二六年六月四日 · 英文原文

摘要

NVIDIA 发布 Nemotron 3.5 Content Safety，一个基于 Google Gemma 3 4B IT 微调的内容安全模型，支持多模态输入（文本与图像）、12 种语言显式训练及约 140 种语言的零样本泛化、自定义企业策略执行和可审计推理轨迹（THINK 模式）。该模型在跨语言和多模态安全基准测试中平均有害内容分类准确率约 85%，在 Multilingual Aegis 上达 96.5%，同时延迟比同类模型低 3 倍。NVIDIA 同时开源了多模态、多语言的安全数据集。

](https://huggingface.co/varunsingh)

过去两年，NVIDIA 的内容安全栈从一个专注的英文文本分类器发展成一个专用模型家族——每个模型都将覆盖范围扩展到新的模态、语言和推理模式。2026 年 3 月发布的 Nemotron 3 Content Safety 首次在一个 4B 参数模型中结合了多模态和多语言能力。今天，我们发布 Nemotron 3.5 Content Safety，完成了这一演进：一个单一模型，将多模态输入、多语言覆盖、自定义企业策略执行和可审计推理统一到一次推理调用中。

本文涵盖 3.5 版本的变化、每项新能力背后的设计决策，以及如何将该模型集成到生产安全流水线中。

Nemotron 3.5 内容安全的新特性

1. 统一多模态评估

Nemotron 3 引入了图像理解；Nemotron 3.5 深化了多模态集成。该模型将 用户 prompt、可选图像和可选助手响应 作为一个上下文窗口，并对组合输入产生一致的安全判定。将三者一起评估——而不是分别打分——弥补了多模态安全场景中一个已知的缺陷：仅从文本和图像之间、或请求和响应之间的交互中出现的策略违规，现在可以在一次通过中被捕获。

2. 全球语言覆盖

Nemotron 3.5 保持了其前代产品的 12 种语言显式训练覆盖——英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语和意大利语——同时继承了来自 Gemma 3 基础模型的跨约 140 种语言的强大零样本泛化能力。这意味着在训练数据稀疏的市场（例如，东南亚语言、斯堪的纳维亚语言、资源较少的非洲语言）中部署时，可以受益于基础模型的多语言迁移，而无需单独的微调。

3. 自定义策略执行

这是 3.5 版本相对于 Nemotron 3 最重要的架构新增。生产部署很少在单一通用安全分类法下运行。医疗平台与金融服务聊天机器人、开发者工具 IDE 或儿童教育应用的风险特征不同。Nemotron 3.5 接受与输入一起的自定义策略规范。模型在生成判定时会基于该策略进行推理，而不是完全依赖内置分类法。这扩展了最初在 Nemotron Content Safety Reasoning 4B 中引入的工作，使其适用于完整的多模态、多语言设置。

4. 推理轨迹（THINK 模式）

Nemotron 3.5 中的每个安全判定都可以通过可选的 think 模式 附带一个可审计的推理轨迹。启用后，模型在输出最终的 safe / unsafe 标签以及（可选）违规类别之前，会输出其逐步推理过程。

<think>
用户 prompt 要求提供关于无需处方获取受控物质的指导。
助手响应提供了具体的获取步骤并引用了一个在线市场。
此交互违反了犯罪计划/自白和受控物质类别。
图像（药房外观）提供了位置背景，但不改变判定。
</think>

User Safety: unsafe
Response Safety: unsafe
Safety Categories: Criminal Planning/Confessions, Controlled Substances

当延迟是主要约束时，可以禁用 THINK 模式，以恢复到与 Nemotron 3 相同的低延迟二元判定。

5. 安全数据集

随着 Nemotron 3.5 的发布，我们也发布了我们的安全数据集。这是一个重要的里程碑，因为大多数开源安全模型通常不提供训练或评估集。对于多模态领域来说，这个问题更严重，因为图像或视频等工件通常来自具有限制性许可条款的资源。Nemotron 3.5 Content Safety Dataset 是多模态、多语言的，并包含用于训练模型的 safety reasoning traces。这些 reasoning traces 以两步方式生成，使其简洁，类似于 Nemotron Content Safety Reasoning 4B 模型。

模型架构

Nemotron 3.5 Content Safety 基于 Google Gemma 3 4B IT（4B 参数），提供 128K 上下文窗口、强大的视觉-语言推理能力和广泛的多语言覆盖。NVIDIA 使用 LoRA 适配器微调此基础模型，该适配器安装了目标安全分类行为，同时保持模型足够紧凑，可在 8GB+ VRAM GPU 上进行实时部署。

推理接口支持三种输出模式：

模式 1 — 低延迟二元判定：

User Safety: safe
Response Safety: unsafe

模式 2 — 带类别的二元判定：

User Safety: safe
Response Safety: unsafe
Safety Categories: Violence, Criminal Planning/Confessions

模式 3 — THINK 模式（推理 + 判定）：

<think>
[逐步推理轨迹]
</think>

User Safety: unsafe
Response Safety: unsafe
Safety Categories: [categories]

安全分类法遵循 Aegis 2.0 框架：13 个与 MLCommons 安全分类法对齐的核心类别，加上 10 个细粒度子类别。这种对齐允许与在 Aegis 分类法数据集上进行基准测试的其他开放和封闭护栏系统进行直接比较。

推理

推理是内容安全分类的加速器，因为它为生产 AI 系统提供了必要的上下文、定制化和问责制，尤其是在企业和受监管环境中。

启用自定义和上下文策略执行

推理允许内容安全模型在推理时动态解释和执行以自然语言定义的自定义、领域特定策略。这是必要的，因为生产部署很少在单一、通用的安全分类法下运行。金融服务聊天机器人与儿童教育应用的风险特征不同，后者可能对脏话的容忍度更低。此能力支持：

类别抑制： 禁用不相关的类别，例如当 DevOps 工具处理短语 "terminate a process" 时，阻止 "violence" 类别触发。
自定义类别注入： 定义特定于组织监管或产品策略的专有风险类别。

提供可审计和文档化的理由

推理轨迹显示了模型在交付最终安全或不安全判定之前的逐步逻辑。这种文档化的理由服务于几个目的：

合规性和审计日志： 受监管行业通常需要对内容审核决策进行文档化的理由。
人工审查： 审查者可以审计 为什么 得出某个判定，以识别系统性模型错误。
策略迭代： 轨迹揭示了模型如何解释边缘情况，允许团队迭代地改进自定义策略语言。

延迟

虽然推理可能会引入延迟，但 Nemotron 模型通过将推理链压缩成简洁摘要来限制输出 token 并提高效率。这是通过一个两步过程完成的，类似于前代模型 Nemotron-Content-Safety-Reasoning-4B。在第一步中，我们使用更大、更强大的模型（如 Qwen 397B）基于提供的 prompt、图像和响应生成 chain-of-thought reasoning traces。我们还提供了样本的真实标签，以避免任何可能进入 reasoning traces 的错误分类。在第二步中，我们通过使用另一个大型模型（如 Qwen 80B）使这些 reasoning traces 更简洁。我们特别指示该模型重新表述原始轨迹（来自第一步），使其不超过 3 个句子。根据我们的实验，生成的大多数 reasoning traces 都在 3 个句子以下。

高效的 reasoning traces 优化允许低延迟的自定义策略执行。此外，reasoning traces 提供了一个有价值的训练信号，可用于训练专门的审核模型。开发者可以选择双模式操作，在通用任务中禁用推理以实现最小延迟，或在复杂策略中启用它。

训练数据

驱动 Nemotron 3.5 的数据集是用于 Nemotron 3 的多模态、多语言混合数据的演进，并增加了针对推理和自定义策略能力的补充。我们使用了以下数据源：

多语言文本安全数据 来自 Nemotron Safety Guard Dataset v3，从具有文化细微差别的子集中采样，并在安全类别和安全/不安全分割中具有比例代表性。
人工标注的多模态数据 由 NVIDIA 以英文收集，并翻译成 12 种语言。关键的是，99% 的训练图像是真实照片——而不是合成生成。这直接解决了多模态安全基准测试领域的一个已知弱点，其中现有数据集如 VLGuard 和 MM-SafetyBench 严重依赖 SDXL 生成的图像，这些图像缺乏生产内容的纹理和对抗性复杂性。虽然由于许可限制，并非所有这些真实图像都能发布，但我们仍然能够发布来自 Wikimedia 和合成生成的图像子集。
安全多模态数据 来自 Nemotron VLM Dataset v2，涵盖扫描文档、图表、论文和图表及其相关查询——确保模型不会过度标记良性的专业内容。
推理轨迹 源自较大教师模型（Qwen 397B）产生的 chain-of-thought 输出，然后使用 Qwen 80B 缩短，用于教导模型如何推理。
主题跟随数据 来自 CantTalkAboutThis 数据集，包含跨一系列企业部署场景（医疗、金融、银行、教育等）的策略规范/判定对。
合成数据 约占总体训练量的 10%，主要用于多样化越狱模式、生成罕见的策略违规示例以及产生多模态对抗案例。

基准测试

Nemotron 3.5 Content Safety 在跨语言、多模态和自定义策略安全基准测试中进行了评估，包括 VLGuard、MM-SafetyBench、PolyGuard、RTP-LX、Aya Redteaming、XSafety、MultiJail、Aegis、Dynaguardrail 和 CoSA。这些评估反映了企业安全的核心生产挑战：在跨全球语言、文本和图像输入以及领域特定策略中应用一致的护栏，而不增加显著延迟。

Nemotron 3 在多模态有害内容测试中建立了 84% 平均准确率的强基线，延迟约为 LlamaGuard-4-12B 的一半。Nemotron 3.5 保持了紧凑的 4B 效率，同时增加了自定义策略支持和推理轨迹。

在跨语言和多模态安全基准测试中，Nemotron 3.5 在保持紧凑 footprint 的同时，提供了强大的有害内容分类准确率。这很重要，因为许多安全模型仍然是英语优先、纯文本，或者在生产流水线中重复运行成本过高。Nemotron 3.5 旨在将多语言覆盖、多模态分类、自定义策略支持和低延迟部署结合在一个模型中。

图 1. Nemotron 3.5 Content Safety 在跨语言和多模态安全基准测试中提供了强大的有害内容分类准确率，在评估的基准测试集中平均约为 85%。

语言级别的结果突出了为什么多语言安全对全球企业 AI 很重要。在 Multilingual Aegis 上，Nemotron 3.5 在 12 种语言中平均有害内容分类准确率为 96.5%。在 RTP-LX 上，平均为 88.8%，Aegis 和 RTP-LX 的综合平均值为 92.7%。这种一致性帮助团队在客户、员工和合作伙伴面向的工作流中应用相同的安全姿态，而不是依赖仅英文的审核或单独的区域安全模型。

图 2. Nemotron 3.5 Content Safety 在 Multilingual Aegis Cultural + Adapted（prompt 分类）（harmful-f1）上，12 种语言的平均有害内容分类准确率为 97%。

图 3. Nemotron 3.5 Content Safety 在 RTPLX（prompt 分类）（harmful-f1）上，12 种语言的平均有害内容分类准确率为 89%。

对于生产护栏来说，仅靠准确率是不够的。安全模型还必须足够高效，以便在内容被处理、返回或路由到下游之前运行。Nemotron 3.5 Content Safety 紧凑的 4B 设计有助于降低重复安全检查的成本和延迟，使多语言和多模态护栏对现实世界的 AI 应用变得实用。

延迟

在默认（无 THINK）模式下，延迟特性与 Nemotron 3 相同。THINK 模式增加了与轨迹长度成比例的推理时间，但这种开销是可预测的，并且可以与同步审核循环分开预算——例如，作为审计流水线的一部分异步运行 THINK 模式评估，而默认模式处理实时决策。

图 4. 与替代的多模态安全模型相比，Nemotron 3.5 Content Safety 在多模态基准测试中实现了 3 倍更低的端到端延迟。

与另一个推理安全模型相比，我们的模型在启用推理时生成的 token 最多减少 50%，使其在成本和延迟方面更高效。

应对基准测试差距

多模态安全研究中一个反复出现的主题是现有评估基础设施中的差距。Nemotron 3.5 的开发遇到了与更广泛文献中记录的相同差距：

纯文本覆盖：最广泛引用的安全基准测试（WildGuard、XSTest、HarmBench）是纯文本的。多模态性能不能从文本基准测试结果中推断出来。
合成图像质量：大多数现有的多模态基准测试使用 AI 生成的图像（通常是 SDXL）而不是真实照片，低估了真实生产内容的难度。
真实图像许可：图库照片许可禁止在 AI 数据集中重新分发，在研究和生产条件之间造成了结构性差距。

NVIDIA 的多模态训练数据——包含真实图像和具有文化细微差别的多语言 prompt——旨在填补模型训练中的一些差距。评估方面的基准测试差距对于更广泛的安全研究社区来说仍然是一个未解决的问题。

快速入门

Nemotron 3.5 Content Safety 在 Hugging Face 上以 NVIDIA Open Model License 提供，用于研究和商业用途，同时提供训练数据集。它支持 transformers、vLLM 和 SGLang，并作为生产级 NVIDIA NIM 在 build.nvidia.com 上提供，适用于需要预打包、GPU 优化推理微服务的团队。

开发者还可以通过推理平台访问该模型，包括 Baseten、Eigen AI、DeepInfra、OpenRouter 和 Vultr。

对于自定义策略工作流，NVIDIA 提供了一个与 Claude 和 Codex 兼容的用于生成自定义策略的技能，以及展示如何使用该模型的 cookbook。自定义策略和推理轨迹帮助团队将安全行为适应领域特定规则，同时保持决策可审计。

译自 Hugging Face · 官方博客 · 录于二〇二六年六月四日