安全案例如何助力前沿AI安全
How can safety cases be used to help with frontier AI safety?
英国AI安全研究所(AISI)发布两篇论文探讨前沿AI安全框架的实施。第一篇概述开发者安全框架中的新兴实践,第二篇提出“安全案例”(safety cases)方法——将精确安全声明、证据和论证整合为可评估的结构化论证。安全案例可用于组织内部决策、第三方红队测试及事件响应,辅助判断系统是否达到安全阈值。目前尚无法编写完整安全案例,需解决顶层声明具体化、符号方案选择、信心量化及能力评估可推广性等未解决问题。
致读者:我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请阅读此处。
安全框架已成为前沿 AI 开发者的标准实践。在这些框架中,开发者会概述关键风险、衡量风险的方法以及缓解风险的步骤。但这并非易事,尤其是在风险具有新颖性、快速变化且难以界定的情况下。
目前已有超过 11 个框架发布,且数量仍在增长,这推动了关于如何编写、实施和完善框架的研究浪潮。我们的两篇最新论文也参与了这一讨论。第一篇为开发者提供了安全框架中新兴实践的概述。第二篇则提出了一种帮助实施这些框架的方法:安全案例(safety cases)。
在这篇博客中,我们将解释什么是安全案例,以及它们如何帮助 AI 开发者判断一个 AI 系统是否达到了其安全框架中设定的安全阈值。
什么是安全案例?
有效实施安全框架意味着要证明一个 AI 系统是安全的。为此,需要三样东西:
一个精确的声明,解释“安全”的含义
证据
将两者联系起来的论证
安全案例是一种广泛使用的技术,它将这三者整合成一个清晰、可评估的论证(Favaro et al., 2023;Sujan et al., 2016;Bloomfield et al., 2012;Inge, 2007)。
我们之前曾写过为什么我们在 AISI 研究安全案例,以及前沿 AI 系统的安全案例可能是什么样子。我们的新论文探讨了安全案例如何用于前沿 AI,以及开发者为何会觉得它们有用。

Tweet This Image
Download Image
一个结构化论证的前几个声明,可能构成安全案例的一部分,来自我们之前关于“无能为力”论证的论文。
如何使用安全案例?
安全案例可用于为组织关于前沿 AI 系统安全性的决策提供信息:

Tweet This Image
Download Image
只要涉及安全决策,安全案例就具有广泛的用途。目前,它们最可能用于公司内部的决策。未来,我们可以想象安全案例会像今天的模型卡和能力评估一样,与第三方共享,并以某种形式发布。
让我们看一些例子:
AI 开发者可以编写一个安全案例,以确保即将推出的系统符合其安全框架中设定的承诺。他们可以将安全案例发送给第三方进行红队测试。
一个工程团队可能正在决定是否要对模型进行微调,使其拒绝回答关于如何从银行偷钱的请求。开发者可以在整个开发周期中不断完善安全案例;如果这项工作正在进行,工程团队可以参考安全案例来帮助做出决策。
一个事件响应团队可能正在应对发布到社交媒体上的越狱攻击。这种可能性可能已被安全案例覆盖;响应团队可以审查在系统公开时编写的安全案例,并据此决定现有防护措施是否足够,或者是否需要改进。
安全框架通常根据系统的能力和已实施的安全措施,规定安全开发和部署前沿 AI 系统的条件。安全案例可以帮助开发者针对特定系统测试其是否符合安全框架。因此,安全案例通过系统特定的分析,补充了在组织层面跨系统应用的广泛政策和原则的安全框架。在论文中,我们更详细地探讨了安全案例如何有助于履行安全框架中的承诺。这建立在我们关于安全框架新兴实践的论文中概述的工作基础之上。
需要更多研究
我们尚不知道如何编写强有力的论证来证明前沿 AI 系统是安全的——这意味着我们还无法编写完整且正确的安全案例。
在达到那个阶段之前,还有大量未解决的问题需要解决,无论是方法论还是实质内容方面。例如,我们目前不知道:
安全案例中的顶层声明应如何具体说明
哪种安全案例符号方案最适合前沿 AI
如何量化我们对各种论证的信心
论证和评估的可推广性如何
在草拟安全案例时,还会反复出现一些技术性的机器学习问题。例如,我们能在多大程度上依赖能力评估?我们是否正确地激发了能力?未来的模型是否会在评估中隐藏实力(sandbag)?
我们乐观地认为,通过编写安全案例_草图_(我们对如何为特定系统编写论证的最佳猜测)和安全案例_模板_(可为特定系统填充的粗略论证),我们可以解决许多这些问题。
要了解更多信息——包括安全案例如何使用的更多细节、我们为何对其感到兴奋,以及更详细的未解决问题列表——请查阅论文。