UK AI Security Institute

安全案例如何助力前沿AI安全

How can safety cases be used to help with frontier AI safety?

二〇二六年五月十五日 · 英文原文

英国AI安全研究所(AISI)发布两篇论文探讨前沿AI安全框架的实施。第一篇概述开发者安全框架中的新兴实践,第二篇提出“安全案例”(safety cases)方法——将精确安全声明、证据和论证整合为可评估的结构化论证。安全案例可用于组织内部决策、第三方红队测试及事件响应,辅助判断系统是否达到安全阈值。目前尚无法编写完整安全案例,需解决顶层声明具体化、符号方案选择、信心量化及能力评估可推广性等未解决问题。

致读者:我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请阅读此处

安全框架已成为前沿 AI 开发者的标准实践。在这些框架中,开发者会概述关键风险、衡量风险的方法以及缓解风险的步骤。但这并非易事,尤其是在风险具有新颖性、快速变化且难以界定的情况下。

目前已有超过 11 个框架发布,且数量仍在增长,这推动了关于如何编写、实施和完善框架的研究浪潮。我们的两篇最新论文也参与了这一讨论。第一篇为开发者提供了安全框架中新兴实践的概述。第二篇则提出了一种帮助实施这些框架的方法:安全案例(safety cases)

在这篇博客中,我们将解释什么是安全案例,以及它们如何帮助 AI 开发者判断一个 AI 系统是否达到了其安全框架中设定的安全阈值。

什么是安全案例?

有效实施安全框架意味着要证明一个 AI 系统是安全的。为此,需要三样东西:

  1. 一个精确的声明,解释“安全”的含义

  2. 证据

  3. 将两者联系起来的论证

安全案例是一种广泛使用的技术,它将这三者整合成一个清晰、可评估的论证(Favaro et al., 2023Sujan et al., 2016Bloomfield et al., 2012Inge, 2007)。

我们之前曾写过为什么我们在 AISI 研究安全案例,以及前沿 AI 系统的安全案例可能是什么样子。我们的新论文探讨了安全案例如何用于前沿 AI,以及开发者为何会觉得它们有用。

Image 1

Tweet This Image

Download Image

一个结构化论证的前几个声明,可能构成安全案例的一部分,来自我们之前关于“无能为力”论证的论文

如何使用安全案例?

安全案例可用于为组织关于前沿 AI 系统安全性的决策提供信息:

Image 2: 展示安全案例使用流程的图表。编写者将安全案例发送给红队,红队要么拒绝并向编写者提供反馈,要么批准并发送给决策者。决策者要么拒绝并向编写者提供反馈,要么批准以做出决策。

Tweet This Image

Download Image

只要涉及安全决策,安全案例就具有广泛的用途。目前,它们最可能用于公司内部的决策。未来,我们可以想象安全案例会像今天的模型卡和能力评估一样,与第三方共享,并以某种形式发布。

让我们看一些例子:

安全框架通常根据系统的能力和已实施的安全措施,规定安全开发和部署前沿 AI 系统的条件。安全案例可以帮助开发者针对特定系统测试其是否符合安全框架。因此,安全案例通过系统特定的分析,补充了在组织层面跨系统应用的广泛政策和原则的安全框架。在论文中,我们更详细地探讨了安全案例如何有助于履行安全框架中的承诺。这建立在我们关于安全框架新兴实践的论文中概述的工作基础之上。

需要更多研究

我们尚不知道如何编写强有力的论证来证明前沿 AI 系统是安全的——这意味着我们还无法编写完整且正确的安全案例。

在达到那个阶段之前,还有大量未解决的问题需要解决,无论是方法论还是实质内容方面。例如,我们目前不知道:

在草拟安全案例时,还会反复出现一些技术性的机器学习问题。例如,我们能在多大程度上依赖能力评估?我们是否正确地激发了能力?未来的模型是否会在评估中隐藏实力(sandbag)

我们乐观地认为,通过编写安全案例_草图_(我们对如何为特定系统编写论证的最佳猜测)和安全案例_模板_(可为特定系统填充的粗略论证),我们可以解决许多这些问题。

要了解更多信息——包括安全案例如何使用的更多细节、我们为何对其感到兴奋,以及更详细的未解决问题列表——请查阅论文

译自 UK AI Security Institute · 录于 二〇二六年五月十五日