管理日益强大的开放权重AI系统的风险

Managing risks from increasingly capable open-weight AI systems

二〇二六年五月十五日 · 英文原文

摘要

今年夏天，多个开放权重AI系统（如Kimi-K2-Instruct、GLM-4.5、GPT-OSS-120B）发布，其参数可公开下载。评估显示它们是迄今最强的开放权重系统，逼近封闭权重SOTA。英国AI安全研究所（UK AISI）与EleutherAI及牛津大学合作研究开放权重模型风险管理，发现训练数据筛选在抵抗对抗性微调方面效果比训练后防御高10倍以上，且无显著性能成本。文章总结了基于模型、脚手架和程序性三类策略，包括防篡改微调、模型溯源、完全访问审计等，并指出当前无硬性安全保障，需多管齐下。

今年夏天，多个强大的开放权重 AI 系统相继发布。它们都是强大的推理模型，且其参数均可公开下载。已报告的评估结果表明，它们是迄今为止能力最强的开放权重 AI 系统，甚至已逼近当今最先进的封闭权重系统。

开放权重系统是 AI 领域开放研究与创新的命脉。它们提升了透明度，促进了广泛的红队测试，并降低了市场集中度。然而，开放权重模型也带来了独特风险。它们可能使有害的 AI 能力迅速且不可逆地扩散。正如它们可以被修改用于有益用途，同样也可以被修改用于有害用途。旨在防止有害行为的安全措施，也可以被快速且低成本地从开放权重模型中移除。

在这篇文章中，我们将讨论开放权重模型风险管理的现有方法和开放问题——包括英国 AI 安全研究所（UK AISI）与 EleutherAI 及牛津大学合作的新研究。

管理开放权重模型的风险充满挑战

如果模型以封闭权重部署，其部署者可以利用丰富的工具集来使其更安全。例如，他们可以为模型添加内容过滤器等安全防护措施。他们还完全控制访问点，从而能够强制执行可接受的使用政策。

相比之下，开放权重模型更难保障安全，因为它们可以在没有监督的情况下被任意共享和修改。这使得开发强有力的安全保障变得更加困难。开放权重通用 AI 系统的风险管理，很可能需要借助多管齐下的策略来最大限度地减少危害。

构建监控与缓解风险的工具集

虽然目前没有任何解决方案能提供硬性的安全保障，但多种策略可以显著降低风险，尤其是在组合使用时。在下表中，我们总结了监控和缓解开放权重模型风险的技术。

这些技术在有效性和鲁棒性方面各不相同，且需要更多研究来理解它们的程度也不同。以下评级代表了 AISI 安全措施团队技术研究人员的最佳判断。

Tweet This Image

Download Image

表 1：开放权重模型风险监控与管理工具集概览。开放权重模型风险管理优先级的高级总结，包括基于模型（M）、基于脚手架（S）和程序性（P）策略。评级反映了英国 AISI 安全措施团队技术研究人员在发布时的最佳判断。参见Partnership on AI 的研究和 GitHub，以获取侧重于方法目标的补充性分类。

总体而言，我们认为最重要的两项技术是用于降低模型发布风险的训练数据筛选，以及用于准确衡量风险以指导模型发布决策的完全访问审计，尽管其他技术也很有益，且未来研究可能改变这一判断。

‍

基于模型的策略

针对开放权重模型滥用的基于模型的防御措施，涉及将安全措施直接构建到模型本身中。这些防御措施不易与模型本身分离。

训练数据筛选： 通用 AI 系统通常使用大量网络数据进行训练。从这些数据中过滤与有害主题（如网络攻击或生物威胁）相关的内容，可以帮助开发者训练出对有害主题知识最少的模型。尽管概念上简单，但过滤网络规模的数据具有挑战性：除了直接成本外，它还因过滤错误和数据集质量下降等多种因素而面临挑战。

一些开发者报告称已研究从预训练数据中过滤某些有害内容（例如，Google DeepMind；OpenAI；Meta），但关于当前方法、评估方式及其有效性的细节尚未公开。

最近，英国 AISI、EleutherAI 和牛津大学的一项研究合作表明，从 LLM 的训练数据中移除有害数据，在抵抗对抗性微调方面的效果，比训练后添加的防御措施高出 10 倍以上，且不会产生显著的性能成本。Anthropic 的近期工作同样发现，预训练过滤在保持有益能力的同时，减少了有害能力。

Tweet This Image

Download Image

图 1：训练数据过滤为开放权重模型构建了防篡改的安全措施。在我们与 EleutherAI 和牛津大学的近期工作中，我们发现过滤预训练数据能有效使 LLM 抵抗恶意微调，且无副作用。

尽管有这些概念验证，但与数据筛选相关的重大开放问题依然存在。其中包括理解训练数据内容与涌现的有害能力之间的关系，探索向模型教授关于有害主题的错误信息的技术，以及理解支撑模型“无知”的机制。

防篡改微调： 用于微调和配置更安全的通用 AI 系统的技术已有先例。一些微调技术已被开发出来，以主动抑制有害能力并使模型抵抗有害篡改。不幸的是，当前方法可以轻松地被撤销，仅需使用几十个训练样本，耗时几分钟。未来进展的一个主要前沿将是防篡改微调技术。

模型溯源： 监控开放权重模型生态系统的一个关键目标是拥有在野外识别和追踪模型的技术。这些方法包括研究模型“血统”和“水印”模型权重的方法。这些技术可以通过一些努力被规避，但它们仍然可能有用，就像刑事取证中的指纹识别一样。未来在基准测试和完善模型取证技术方面的工作将是有益的，但采用的主要障碍可能在于实施以及与模型分发平台的集成。

‍

基于脚手架的策略

基于脚手架的防御措施涉及将模型与外部安全措施一同发布。这些安全措施可以被轻易禁用。然而，它们对于防止意外伤害、防止被技术水平不高的行为者用于有害目的，以及为下游开发者构建产品提供安全措施方面可能很有用。

数据溯源： 这些包括不可感知的水印和元数据。这类技术可以被规避和移除。尽管如此，它们对于研究 AI 生成内容（包括来自开放权重模型的内容）的传播具有经验价值。数据溯源方法已在许多案例中使用，但尚未被普遍采用。

监控与干预工具： 监控和干预是 AI 风险管理的核心策略。用于提高系统输入、系统输出、思维链和/或内部认知安全性的工具是有帮助且有先例的。例如，开发者有时会发布带有内容过滤器的开放权重生成式 AI 系统。

‍

程序性策略

除了上述技术策略外，几种更广泛的策略对于开放权重系统的风险管理可能具有独特的价值。

完全访问审计： 对开放权重系统进行输入输出测试是有用的，但它不允许审计员评估涉及模型修改的风险。完全的模型访问能够对最坏情况下的危害进行更严格的估计，尤其是对于开放权重系统。考虑到对抗性微调的风险，在开放权重发布前，执行考虑对抗性微调的最坏情况能力评估是一个关键步骤。

透明度与文档： 将 AI 系统与详细文档一同公开发布，使研究人员能够更好地将其对系统及其下游影响的研究置于具体背景中。

分阶段部署： AI 模型部署不是一个二元过程。存在一个从完全封闭到完全开放的部署选项连续谱。AI 开发者可以选择不一次性完全开放系统，而是分阶段发布，并在每个阶段监控其使用和影响，然后再进行最终的完整发布。

了解你的客户（KYC）： KYC 策略侧重于帮助开发者收集用户信息，以帮助监控系统的使用情况，并允许有选择性地授予系统访问权限。

撤回与替换系统： 一旦系统以开放权重发布，就无法回滚。然而，停止下载访问仍然可以减缓扩散。开发者还可以通过用更安全的版本替换已撤回的系统，来加速有害系统的淘汰。

不以开放权重部署高风险系统： 避免以开放权重发布系统，可以成为抵御其带来的许多下游风险的强有力防御措施。

‍

迈向严谨的开放权重模型风险管理科学

开放权重模型生态系统在不断变化，我们对管理这些模型风险的工具和最佳实践的理解也在不断变化。在这篇文章中，我们概述了当前的做法。然而，开放权重模型风险管理领域仍然很新。为了继续建立我们的集体理解，我们强调合作与开放的价值。

我们编写了一份示例检查清单，其中包含可用于总结通用 AI 系统开放权重发布所采用风险管理策略的问题。

‍

开放科学与开放报告将是构建新兴的开放权重模型风险管理科学的关键。AISI 期待在该领域继续合作与伙伴关系。

译自 UK AI Security Institute · 录于二〇二六年五月十五日