让安全评估可操作

Making safeguard evaluations actionable

二〇二六年五月十五日 · 英文原文

摘要

英国AI安全研究所（AISI）联合多位合作者发布《防止滥用的防护措施安全案例示例》技术论文，提出将防护评估结果与定量风险模型关联的结构化方法。该方法通过红队测试估算恶意行为者绕过防护所需努力，利用“提升模型”将评估结果转化为整体风险估算，并在部署期间引入持续风险信号（如持续评估、越狱赏金计划）以应对新兴威胁。论文在AISI此前安全案例框架基础上扩展至滥用防护措施，旨在为AI开发者提供基于证据的部署决策路径。

随着AI系统能力的提升，滥用防护措施——由前沿AI开发者实施的技术干预，旨在防止用户从AI系统中获取有害信息或执行有害行为——成为安全部署先进AI系统的关键组成部分。因此，对这些保护措施进行稳健评估变得愈发重要。AI安全研究所（AISI）开展了广泛的防护措施评估，并通过防护评估原则等工作，致力于实现更严格、更稳健的评估。

然而，一个关键挑战依然存在：如何让防护评估具有可操作性和决策相关性？要回答这个问题，我们必须先问另一个问题：我们应该使用哪些指标来衡量防护效果，又能在这些指标上为给定的风险水平设定怎样的阈值？如果我们能基于防护有效性的测量来设定阈值，就有可能根据这些评估结果，围绕模型部署和访问做出透明的决策。

本文旨在探讨这些问题。我们与多位合作者共同撰写了《防止滥用的防护措施安全案例示例》，其中提出了一条路径，说明AI开发者如何构建论证，证明其防护措施足以降低部署风险。这项工作建立在AISI此前关于安全案例的研究基础之上，将框架扩展至滥用防护措施。安全案例能够基于证据，针对特定AI系统在给定部署环境中的安全性，提出清晰、结构化且令人信服的论证。

我们提出的安全案例提供了一条具体路径——尽管并非唯一路径——用于将防护评估结果与可操作的风险评估联系起来。我们的方法并非提供零散且互不关联的证据，而是构建一个端到端的论证，将技术评估与实际部署决策相连接。

图片1：图片847647344，图片

推文此图

下载图片

我们的安全案例所依赖的组件概览。

安全论证的结构化方法

我们的示例安全案例始于一个全面的防护评估流程。我们描述了一个假设的AI开发者如何系统地对其防护措施进行红队测试，估算恶意行为者需要付出多少努力才能绕过防护并滥用AI助手。一次性评估所有防护措施通常在实际操作中具有挑战性，因此我们描述了如何分别评估不同组件，然后将结果融合成一个综合图景，展示防护措施在多大程度上减缓了恶意行为者的行动。

图片2：图片496174843，图片

推文此图

下载图片

防护评估的三个步骤，能够产生对防护有效性的严格估算。

我们的关键贡献在于将这些评估结果与定量风险模型联系起来。该安全案例展示了开发者如何将红队测试结果输入到"提升模型"中——这是一个估算防护措施引入的障碍在多大程度上实际阻止了现实世界滥用的框架。该模型提供了技术防护性能与整体风险估算之间的关键联系，其输入除了红队测试结果外，还依赖于危险能力评估和威胁建模。提升模型的交互式版本可在此处获取：AI滥用模型。

图片3：图片1323344526，图片

推文此图

下载图片

将防护评估结果与整体风险估算联系起来的提升模型概览。

应对不断变化的风险

在部署过程中，新的规避防护方法会出现，试图这样做的主体数量也会增加，因此开发者需要某种方式来应对新兴风险。我们的安全案例在部署期间使用持续的风险信号（例如通过持续评估或越狱赏金计划），使开发者能够迅速应对新出现的威胁。如果估算的风险水平变得不可接受，开发者可以改进其防护措施，或及时调整其部署方式。

图片4：图片914720042，图片

推文此图

下载图片

AI开发者在构建此安全案例时可遵循的三项程序性政策。

替代方案与改进

我们的安全案例代表了一条具体路径，用于严格论证AI滥用风险被控制在预设水平以下。然而，这些滥用防护措施并非降低风险、证明模型部署安全性的唯一途径。其他方法包括进行能力评估并执行威胁建模，以论证即使没有缓解措施，能力本身也不会带来不可接受的风险（如能力缺失安全案例所示）；或者优先构建特定领域的社会韧性，以适应新能力，例如加固关键基础设施以抵御网络攻击（如DARPA的AI网络挑战赛）。

我们预计，不同的开发者和研究者需要根据自身具体情境和风险状况调整该框架。有些人可能需要更严格的阈值，另一些人可能需要考虑不同的威胁模型，还有许多人希望纳入我们考虑范围之外的更多防护类型。完整技术论文提供了详细方法论，并对构建此案例的一系列替代方法进行了扩展讨论。

构建安全案例是一个持续的过程：威胁环境、AI能力以及部署带来的收益都会随时间变化。这意味着可能需要不断重新审视假设、更新威胁模型并完善缓解措施。随着新的风险路径出现、路径中其他非AI部分可能变得更容易，或发现巧妙的越狱方法，安全案例很可能需要相应调整以保持同步。我们希望本文提出的示例能够帮助AI安全与安保社区管理这一复杂且不断演变的证据，并将类似方法应用于不同的方法和不同的问题。

译自 UK AI Security Institute · 录于二〇二六年五月十五日