安全案例如何助力前沿AI安全

How can safety cases be used to help with frontier AI safety?

二〇二六年五月十五日 · 英文原文

摘要

英国AI安全研究所（AISI）发布两篇论文探讨前沿AI安全框架的实施。第一篇概述开发者安全框架中的新兴实践，第二篇提出“安全案例”（safety cases）方法——将精确安全声明、证据和论证整合为可评估的结构化论证。安全案例可用于组织内部决策、第三方红队测试及事件响应，辅助判断系统是否达到安全阈值。目前尚无法编写完整安全案例，需解决顶层声明具体化、符号方案选择、信心量化及能力评估可推广性等未解决问题。

致读者：我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请阅读此处。

安全框架已成为前沿 AI 开发者的标准实践。在这些框架中，开发者会概述关键风险、衡量风险的方法以及缓解风险的步骤。但这并非易事，尤其是在风险具有新颖性、快速变化且难以界定的情况下。

目前已有超过 11 个框架发布，且数量仍在增长，这推动了关于如何编写、实施和完善框架的研究浪潮。我们的两篇最新论文也参与了这一讨论。第一篇为开发者提供了安全框架中新兴实践的概述。第二篇则提出了一种帮助实施这些框架的方法：安全案例（safety cases）。

在这篇博客中，我们将解释什么是安全案例，以及它们如何帮助 AI 开发者判断一个 AI 系统是否达到了其安全框架中设定的安全阈值。

什么是安全案例？

有效实施安全框架意味着要证明一个 AI 系统是安全的。为此，需要三样东西：

一个精确的声明，解释“安全”的含义
证据
将两者联系起来的论证

安全案例是一种广泛使用的技术，它将这三者整合成一个清晰、可评估的论证（Favaro et al., 2023；Sujan et al., 2016；Bloomfield et al., 2012；Inge, 2007）。

我们之前曾写过为什么我们在 AISI 研究安全案例，以及前沿 AI 系统的安全案例可能是什么样子。我们的新论文探讨了安全案例如何用于前沿 AI，以及开发者为何会觉得它们有用。

Tweet This Image

Download Image

一个结构化论证的前几个声明，可能构成安全案例的一部分，来自我们之前关于“无能为力”论证的论文。

如何使用安全案例？

安全案例可用于为组织关于前沿 AI 系统安全性的决策提供信息：

Image 2: 展示安全案例使用流程的图表。编写者将安全案例发送给红队，红队要么拒绝并向编写者提供反馈，要么批准并发送给决策者。决策者要么拒绝并向编写者提供反馈，要么批准以做出决策。

Tweet This Image

Download Image

‍

只要涉及安全决策，安全案例就具有广泛的用途。目前，它们最可能用于公司内部的决策。未来，我们可以想象安全案例会像今天的模型卡和能力评估一样，与第三方共享，并以某种形式发布。

让我们看一些例子：

AI 开发者可以编写一个安全案例，以确保即将推出的系统符合其安全框架中设定的承诺。他们可以将安全案例发送给第三方进行红队测试。
一个工程团队可能正在决定是否要对模型进行微调，使其拒绝回答关于如何从银行偷钱的请求。开发者可以在整个开发周期中不断完善安全案例；如果这项工作正在进行，工程团队可以参考安全案例来帮助做出决策。
一个事件响应团队可能正在应对发布到社交媒体上的越狱攻击。这种可能性可能已被安全案例覆盖；响应团队可以审查在系统公开时编写的安全案例，并据此决定现有防护措施是否足够，或者是否需要改进。

安全框架通常根据系统的能力和已实施的安全措施，规定安全开发和部署前沿 AI 系统的条件。安全案例可以帮助开发者针对特定系统测试其是否符合安全框架。因此，安全案例通过系统特定的分析，补充了在组织层面跨系统应用的广泛政策和原则的安全框架。在论文中，我们更详细地探讨了安全案例如何有助于履行安全框架中的承诺。这建立在我们关于安全框架新兴实践的论文中概述的工作基础之上。

需要更多研究

我们尚不知道如何编写强有力的论证来证明前沿 AI 系统是安全的——这意味着我们还无法编写完整且正确的安全案例。

在达到那个阶段之前，还有大量未解决的问题需要解决，无论是方法论还是实质内容方面。例如，我们目前不知道：

安全案例中的顶层声明应如何具体说明
哪种安全案例符号方案最适合前沿 AI
如何量化我们对各种论证的信心
论证和评估的可推广性如何

在草拟安全案例时，还会反复出现一些技术性的机器学习问题。例如，我们能在多大程度上依赖能力评估？我们是否正确地激发了能力？未来的模型是否会在评估中隐藏实力（sandbag）？

我们乐观地认为，通过编写安全案例_草图_（我们对如何为特定系统编写论证的最佳猜测）和安全案例_模板_（可为特定系统填充的粗略论证），我们可以解决许多这些问题。

要了解更多信息——包括安全案例如何使用的更多细节、我们为何对其感到兴奋，以及更详细的未解决问题列表——请查阅论文。

译自 UK AI Security Institute · 录于二〇二六年五月十五日