UK AI Security Institute

安全评估原则

Principles for safeguard evaluation

二〇二六年五月十五日 · 英文原文

英国AI安全研究所(原名称于2025年2月14日更名)发布论文《评估前沿AI系统滥用防护措施的原则》,提出评估防护措施的五步流程:明确防护措施要求、制定防护措施计划、记录充分性证据、制定定期评估计划、判断证据和评估计划是否充分。该所同时发布配套模板,提供可操作问题指导评估。这些资源基于对Claude 3.5 Sonnet等前沿AI系统的测试经验,与开发者合作制定,旨在推动防护措施评估标准化。

致读者:我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请点击此处

在 AI 安全研究所,除了评估模型能力外,我们一直在评估滥用防护措施——即前沿 AI 开发者为防止用户从模型中获取有害信息或行为而实施的技术干预。我们预计,随着 AI 能力的提升,防护措施将变得越来越重要,我们致力于加强自身及他人对其进行严格评估的能力。与机器学习领域的许多方面一样,我们认为确立清晰的问题陈述和评估框架将有助于推动进展。

我们的新论文《评估前沿 AI 系统滥用防护措施的原则》提出了一套核心推荐最佳实践,旨在帮助指导如何衡量前沿 AI 的防护措施。为方便前沿 AI 开发者使用这些建议,我们创建了《评估前沿 AI 系统滥用防护措施的模板》,该模板基于这些原则提供了一系列具体且可操作的问题,以指导有效的防护措施评估。我们的工作源于在部署前和部署后测试中评估一系列前沿 AI 系统防护措施的经验(例如 Claude 3.5 Sonnet 和我们的五月更新)。

我们希望这些资源有助于推动防护措施评估在开发者内部以及向第三方(如合作者和评估者)呈现方式的标准化。有了既定的框架、衡量标准和定义,协作会变得更加容易,而这些原则正是朝着这一方向迈出的一步。

我们与前沿 AI 开发者及其他防护措施领域的组织合作,共同制定了这些原则。然而,防护措施及其评估都在快速发展,我们预计将随着该领域的进步而更新这些资源。我们鼓励各组织使用我们的框架,并分享关于如何改进的反馈,以便社区朝着标准化和严格的防护措施评估迈进。

图片 1

Tweet This Image

Download Image

评估滥用防护措施的五步流程

在这篇文章中,我们概述了提出的防护措施评估五步流程。该流程旨在通用地适用于各种威胁模型,并能适应风险格局的变化。

明确防护措施要求

第一步建议前沿 AI 开发者明确说明其防护措施旨在满足哪些要求。这些要求可以从公司安全框架、承诺或使用政策中推导而来,例如将“不允许用户使用模型进行恶意网络攻击”这样的陈述转化为“防护措施必须防止用户能够使用模型进行恶意网络攻击”这样的要求。这些声明最好还能包括所考虑的威胁行为者以及所做的任何假设。

制定防护措施计划

在这一步中,我们建议开发者列出并描述计划在部署系统中使用的一组防护措施。这些措施可以是系统防护措施(防止威胁行为者在能够访问系统的情况下从系统中获取有害行为);访问防护措施(完全防止威胁行为者访问系统);以及维护防护措施(确保访问或系统防护措施随时间保持有效性)。本文档不涵盖防止模型被盗的安全防护措施。某些防护措施细节可能具有商业敏感性;在这种情况下,无需与所有相关方共享所有细节。

记录充分性证据

接下来,我们建议开发者收集并记录关于其防护措施有效性的证据。这里可以收集多种类型的证据,包括但不限于:对防护措施进行红队测试的结果(可以是所有防护措施组合或单个组件);在现有数据集上对防护措施行为进行的静态评估;或使用 AI 技术对鲁棒性进行的自动评估。论文详细介绍了这些及其他证据类型的最佳实践。这一步的一个重要部分是使用第三方来收集证据(例如漏洞赏金平台或红队组织)或评估开发者自己收集的证据。

制定定期评估计划

即使防护措施在部署时被评估为足够鲁棒,这种情况也可能随时间变化,例如随着新的越狱方法出现而改变。因此,我们建议开发者定期重新评估其防护措施,随着新最佳实践的出现改进技术,以确保它们持续满足防护措施要求。

判断证据和评估计划是否充分

最后,在这一部分,我们建议开发者将所有收集到的证据与定期评估计划结合起来,形成一份论证,说明防护措施满足要求并将持续满足。我们还认为,与相关第三方分享这份论证以供审查和批评是有价值的,并且可能发布经过编辑的公开版本,以实现防护措施评估的透明度。

我们希望这些原则能够推动对防护措施鲁棒性进行更严格和标准化的评估。这将有助于推动开发更有效的防护措施。我们鼓励前沿 AI 开发者使用我们的框架和模板,并分享他们的经验和反馈,以便我们改进这一流程,朝着标准化和高质量的防护措施评估迈进。

您可以在此处找到《原则》,在此处找到《模板》。

译自 UK AI Security Institute · 录于 二〇二六年五月十五日