AISI的安全案例

Safety cases at AISI

二〇二六年五月十六日 · 英文原文

摘要

英国AI安全研究所（原AI安全研究所）发布报告，提出通过“安全案例”（safety case）结构化论证前沿AI模型的安全性。报告指出，当前模型尚不具备引发严重风险的能力，但未来能力增强后需更复杂的论证与证据。安全案例结合经验性、概念性、数学论证及红队测试等证据，但完整案例尚不可行。研究所计划通过直接研究、协作论坛及非正式评估构建安全案例草图，并已与Anthropic、Google DeepMind、Apollo Research等机构合作。

致读者：我们已于2025年2月14日更名为AI安全研究所。更多信息请点击此处。

安全案例：面向前沿AI安全的结构化论证

随着性能提升，前沿AI模型带来的收益与风险也在不断变化，这要求我们相应调整风险缓解方式以及信任这些缓解措施所需的证据。现有模型尚不具备引发某些严重风险（如人类控制权不可逆丧失）的能力，因此基于能力评估的论证就已足够。若未来模型能力大幅增强，则可能需要不同类型的论证与证据来理解此类风险是否存在。

AI领域发展迅速，不同开发者对前沿AI模型的安全采取不同策略。一种适应这种多样性的方式是让AI开发者构建针对自身技术与部署场景的安全案例。英国国防部的国防标准00-56将安全案例定义为：

安全案例： 一种由证据支撑的结构化论证，能够提供令人信服、易于理解且有效的理由，证明系统在特定环境中针对特定应用是安全的。

两家前沿AI开发者已强调将安全案例作为其高能力模型方法的一部分：Anthropic在其ASL-4政策草案中包含了"肯定性案例"，而Google DeepMind的部署缓解等级2则是"带有红队验证的安全案例"。我们认为这是积极进展，并相信安全案例是开发者整体AI安全方法的重要组成部分（但非唯一部分）。

我们预期AI系统的安全案例将结合多种证据类型，包括：解释方法为何有效的经验性、概念性和数学论证；负面证据，例如激励充分且能力足够的红队未能突破安全方法；以及关于部署环境、潜在危害和AI公司内部组织的社会技术证据。

然而，由于我们对AI安全的认知尚处于初期阶段，目前还无法构建能够覆盖远超当今模型能力所带来风险的_完整_安全案例，例如因失控或高度自主性而产生的风险。针对能力较弱模型的安全案例经验虽有帮助，但远远不够，因为许多细节将截然不同。尽管如此，我们相信通过构建安全案例草图——详细阐述我们对特定安全方法所期望的论证与证据——可以显著加深对安全案例可能形态的理解。这些草图可作为未来完整安全案例的指示性构建模块。

我们的目标是成为安全案例草图研究的枢纽，整合以下方面：

直接研究：针对前沿AI安全案例的潜在结构，以及针对各种安全测量与缓解方法的安全案例草图。
协作、咨询与讨论论坛：支持并分享AI公司、民间社会组织以及技术安全与政策实验室之间的安全案例研究。
非正式评估与红队测试：对安全案例草图进行测试，以识别需通过进一步研究解决的局限性或开放性问题。

我们认为现在就开始至关重要，要远早于我们能够撰写完整安全案例的时间点。为不同缓解策略绘制证据类型与开放研究的图谱，将有助于为尚未到来的模型确定优先级和规划，包括需要额外研究投入的领域。即使缓解策略的细节发生变化，我们预计AI安全案例的许多经验教训仍可迁移，从而让我们为未来的决策做好更充分准备。

前沿AI安全案例将充满挑战

相较于使用安全案例的现有行业，前沿AI既具有独特特征，又因缺乏成熟理论与实践而面临更高不确定性。障碍包括：

开放研究问题： 尽管测量和缓解高能力AI系统风险的方法不断演进，但所有方法都面临重大挑战，其成功依赖于尚未解决的科学或工程问题。现在撰写安全案例，我们需要对未来实验结果或新方法的可用性做出假设。
需要多种正面与负面证据： 安全案例既受益于支持安全性的正面论证与证据，也受益于寻找系统不安全的负面证据。这包括寻找反例以及尝试突破安全措施的红队。对这类负面证据的信任需要正面论证来证明搜索过程的可靠性，例如红队激励充分且能力足够。
分歧巨大！ 研究人员对前沿AI带来严重风险的可能性以及特定安全方法的有效性存在强烈分歧。我们认为这些分歧正是现在绘制安全案例草图的原因：公开讨论潜在安全案例使我们能够作为社区进行审视和改进，通常还能推动额外研究。存在广泛分歧的问题示例包括：
- AI模型试图规避安全技术的可能性： 能力足够的前沿模型是否会试图规避控制措施和安全调优技术？
- 人类偏好能否对抗强模型？ 可扩展监督方法，如放大、辩论和递归奖励建模，利用AI模型辅助人类监督AI模型。目前尚不清楚这些方法能否扩展到超人类能力，而夹层测试等经验测试也仅是近似。
- 更强的验证是否可行？ 已有多种使用渐近或形式化证明的AI安全方法被提出，支持者认为它们对于达到足够安全水平是必要的。然而，大多数前沿AI开发者并未采用这些方法，且其能否扩展到前沿模型尚不明确。
- 模型性能会饱和吗？ 反对现在开始的一个论点是，在严重风险成为可能之前，性能可能已经饱和。但我们认为，不确定性意味着两种可能性都应被覆盖。
- 理想的结构化程度是多少？ 结构化安全案例方法，如目标结构符号和主张-论证-证据，为不完整论证以及结合高层结构与非结构化部分的论证提供了标准方法论。专门针对AI安全的结构化方法包括使用观察设计域和安全案例模板。然而，我们不确定在AI安全案例背景下何种结构化程度是合适的，且无论结构如何，大多数关键细节都将依赖于关于实验类型与结果的科学辩论。

Tweet This Image

Download Image

可解释性可仅用于检测不对齐，通过红队或其他证据支持准确性（左和中），或作为消除不对齐的缓解方法（右）。此图细节仅供直观理解。

这些障碍意味着我们不应期望2024年的安全案例草图具有高置信度：我们的目标是绘制不确定性、开放问题和当前技术的空间图谱，并汲取即使具体细节变化也能迁移至未来前沿AI系统的经验教训。

深入细节

尽管围绕前沿AI完整安全案例存在不确定性，但我们认为安全案例草图必须深入探讨方法如何运作以及可能使用何种证据的细节，即使这需要对细节进行大量猜测。相比高层论证，安全案例部分内容的详细草图更容易被检查出漏洞，并能更好地指导后续改进或成功概率评估。然而，猜测的细节意味着此类安全案例草图的通用性将低于先前应用于自主AI系统的安全案例模板，我们预计结合两种方法才能兼顾广度与深度。

例如，针对AI控制的安全案例可能使用红队尝试突破用于约束AI模型的控制系统。这涉及许多具体选择：模型的部署环境、所使用的控制机制类型，以及对红队的限制（例如红队能否迭代式地对模型进行越狱）。我们认为，在未来的安全案例工作中明确这些参数至关重要，以便使分析和反例更加具体。

在可能的情况下，我们的目标是发布可供任何人（包括AI公司、学术界和民间社会）检查并在此基础上构建的安全案例草图。在协作更为敏感的情况下，我们的目标是促进具有不同专业背景的各方进行评估和检查，并提炼出适合更广泛发布的组件和经验教训。

覆盖多样化的方法并深入细节意味着大量工作！我们已与两家前沿AI实验室以及以下机构启动了关于安全案例草图的研究合作：Apollo Research（基于可解释性的评估）、Redwood Research（AI控制及相关威胁模型）、AI治理中心（AI安全案例中的不同证据类型），以及另一家机构（自动化AI安全）。我们还将增加其他合作，包括围绕可保证安全的AI，并正在与系统安全及相关领域（如预测）的多位研究人员进行洽谈。

我们正在招聘！我们首先招募机器学习研究科学家，负责安全案例草图的策略、结构和细节，并将逐步建设安全案例其他社会技术方面的能力。欢迎加入我们！

译自 UK AI Security Institute · 录于二〇二六年五月十六日