UK AI Security Institute

评估前沿AI系统的早期经验

Early lessons from evaluating frontier AI systems

二〇二六年五月十六日 · 英文原文

英国AI安全研究所(AISI)自2023年11月组建全球最大安全评估团队之一,已发布开源评估框架Inspect AI,并对主要公司的4个大语言模型(LLM)完成测试。AISI聚焦滥用、社会影响、自主系统与防护措施四类风险,采用自动化评估、AI agent评估、专家红队测试及人类提升研究三种测试层级(轻量级、标准、强化),并建立能力阈值与风险模型对齐机制。评估需预注册实验设计,实施严格信息安全措施,确保模型访问权限与测试窗口。

致读者:我们已于2025年2月14日更名为AI安全研究所。了解更多信息请点击此处

引言

AI安全研究所(AISI)的使命是为政府提供对前沿AI系统安全性的实证理解。为实现这一目标,我们设计并运行评估,旨在衡量可能带来风险的AI系统的能力。

自2023年11月以来,我们已组建了全球最大的安全评估团队之一,领导团队由世界级研究人员组成,与美国AISI建立了谅解备忘录(MoU),并开始实施联合测试。我们还发布了开源评估框架报告了对主要公司4个大语言模型的测试结果,并进行了多次部署前测试。

但这仅仅是开始。模型评估是一门新兴且快速发展的科学,我们定期迭代方法。我们将继续壮大团队,提升能力以应对挑战和开放的科学问题。如果你对此充满热情,请加入我们

这篇博客阐述了我们迄今为止关于如何设计和运行第三方评估的思考,包括需要考虑的关键要素和开放性问题。其目的并非提供稳健的建议,而是希望就此公开讨论这些实践,并向他人学习。

我们将讨论第三方评估者的角色及其可针对的测试目标,包括测试哪些系统、何时测试,以及测试哪些风险和能力。我们还将探讨如何有效评估,包括针对不同目的使用哪些测试、如何开发稳健的测试,以及如何确保安全与安保。

1. 第三方评估者的角色是什么?

对前沿AI系统的独立评估可以提供特定系统能力和脆弱性的快照。尽管我们认为这门科学尚处于初期阶段,独立评估还无法承担"认证"功能(即提供关于特定系统"安全"的可靠保证),但它们是激励各方尽最大努力提升安全性的关键部分。由政府或其他第三方完成的独立评估为AI公司、政府和公众带来了关键益处,包括:

由国家机构完成的独立评估为政府带来了额外益处:

综上所述,独立评估的这些益处对于AI系统(无论是现在还是未来)的安全、可靠和可信赖的开发与使用至关重要。

2. 测试哪些系统以及何时测试?

AISI的使命是建立对前沿AI安全性的实证理解。在第一年,我们的重点放在那些我们认为能提供关于AI前沿及其发展最佳洞察的AI系统上。

在实践中,这意味着我们专注于评估那些可能在通用能力上达到或超越当前最先进水平(SOTA)的系统。一种评估方法是使用“缩放定律”。作为识别此类系统的代理,该定律表明用于训练的计算量与能力之间存在相关性。

我们知道这并不完美,可能会遗漏其他可能带来风险的系统。未来,我们旨在开发一种稳健的方法,用于确定哪些系统可能带来令人担忧的能力跃升,从而值得跟踪和评估。

此外,还有一个关于_何时_测试系统的决策。我们现在与公司合作进行部署前测试,我们认为这构成了预期风险暴露的阶跃变化,同时我们也在进行部署后测试,以监控“野外”性能,并为比较新系统建立基线。

更精细的方法是在整个AI生命周期的各个时间点进行测试,当我们预计风险会以值得监控或优先处理的有意义方式增加时,例如:

3. 测试什么?

AISI目前在我们的评估中优先考虑以下领域:

我们选择这些领域的一般启发式方法是关注具有最大潜在危害的关键风险。最近发布的临时性国际高级AI安全科学报告全面概述了前沿AI系统的风险和能力,帮助我们识别哪些风险应归类为评估的关键风险。我们还专注于我们认为政府因其特定专业知识(例如在国家安全领域)可以增加价值的领域,以及不会与其他地方的工作重复的领域。我们定期考虑是否更改或增加我们的评估套件,并在过去一年中扩展了我们的关注范围;例如,我们的社会影响团队现在考虑AI系统助长犯罪滥用和社会不稳定的可能性。

风险建模与能力阈值

如果我们想正确理解AI系统如何可能产生风险,我们的评估需要围绕特定的危害路径来设计。我们需要清楚地理解我们衡量的能力(例如某些编码能力)如何可能导致现实世界的危害(例如协助对关键基础设施的网络攻击)。因此,我们已开始通过系统的风险建模过程来绘制这些潜在的危害路径。风险建模提供了对需要管理的风险的更清晰理解,但由于前沿AI的新颖性及其能力的双重用途特性,这可能是具有挑战性的。例如,通用AI系统具有广泛的应用,使得难以预测所有潜在风险。AI系统外部的因素也可能影响风险,这使得仅通过评估系统来进行评估变得困难。最后,详细的風險建模通常需要关于特定危害路径和威胁行为者的高度敏感信息。

尽管存在这些挑战,我们致力于做好这项工作。没有详细和严格的风险建模,我们无法将评估结果转化为对风险的实际评估。

前沿AI开发和部署决策的黄金标准应包括一套全面且明确定义的风险和能力阈值,这些阈值除非得到适当缓解,否则可能导致不可接受的结果。我们认为政府可以发挥重要作用,正如27个国家和欧盟在2024年AI首尔峰会上所承认的那样。因此,我们已开始着手确定能力阈值:特定的AI能力,这些能力预示着潜在的严重风险,可以进行测试,并应触发某些行动以缓解风险。它们对应于我们风险建模中的危害路径,例如能够消除恶意行为者当前障碍或解锁新危害方式的能力。

评估、能力阈值与风险模型之间的一致性

如上所述,我们希望我们的评估和风险模型紧密对齐。因此,我们正在努力开发能够清晰映射到所有相关路径和能力的评估。我们的目标是最终用一套评估来操作化每个能力阈值,并提前明确定义哪些评估结果我们认为超过了阈值。这将是一个迭代过程,评估的见解将反馈给我们的风险模型,反之亦然。在我们朝着这一长期目标努力的同时,我们的风险建模已经指导了我们开发哪些评估,并提供了一个解释结果的框架。

我们旨在如何根据风险模型定制评估的示例包括:

4. 针对不同目的使用哪些测试?

评估者可以使用多种技术,这些技术可以单独使用或组合使用。AISI目前使用以下技术:

  1. 基于场景的探测涉及评估模型在感兴趣的场景(例如进行特定犯罪活动)中,对预先指定且相对明确的步骤提供帮助的能力。

  2. 基于目标的探测涉及从一个高层次目标开始,例如“赚很多钱”,并以更开放的方式探索模型能在多大程度上实现该目标。

红队测试提供了对模型能力的深入和切实的洞察,但由于所需的人力投入,它比自动化技术更耗费资源。因此,红队测试通常覆盖比自动化测试更窄的领域,并且通常每个场景只测试一次。

一个关键挑战是在紧迫的时间表内(尤其是在部署前)提供严格的评估。我们当前的试点方法采用不同的测试层级来解决这个问题;如果更快、更自动化的评估产生了令人担忧或令人惊讶的发现,则会触发更深入的评估。我们对层级的思考如下:

这些层级是正在进行的工作,代表了我们理想中的最终状态。一个关键的开放科学问题是,一个层级的结果在多大程度上可以用作更高层级的代理(以及具体在哪些情况下不成立,例如,如果较低层级的测试产生假阴性,或者其设计的能力门槛低于令人担忧的水平),从而可能无需运行更昂贵和耗时的评估。

我们还一直在开发运行各种评估和层级所需的基础设施和工具,以使其尽可能高效、有洞察力和高质量。我们的测试使用Inspect AI编写,这是一个我们为内部使用和更广泛的评估生态系统创建的开源模型评估框架。Inspect提供了最先进的能力,包括灵活的prompt工程、多轮对话、agent脚手架和模型评分。我们创建它是为了内部使用和更广泛的评估生态系统。

5. 如何开发稳健的测试?

基线

对于我们所有的测试,我们都开发基线,这对于解释关于风险的实证结果和结论至关重要。模型以人类(根据所评估的风险模型,可以是专家或非专家)或其他最先进模型为基线。

我们通过定期在公开可用的系统集上运行我们的自动化和agent评估套件来开发这些基线。在建立这些基线时,一个关键问题是,在时间限制下,应在每个模型的定制激发上投入多少精力,以及这对比较不同系统的结果以及我们对评估能力极限的信心有何影响。

此外,在选择人类用户建立基线时存在几个设计问题,例如:测试对象是否可以访问互联网,以及他们有多少时间执行任务;测试对象是否有表现良好的激励,以及我们是否创建检查来监控注意力;以及测试对象具有何种专业水平,特别是与风险模型相关的专业水平。

能力激发

独立评估难以设计,因为模型或系统的全部潜在能力可能难以评估。用户可以通过不可预见的方式改进或修改能力,例如通过prompt工程、微调或提供对软件工具的访问。还有人担心AI系统可能被操纵以在未来的特定评估任务中失败,从而使这些任务无法代表底层能力。

评估能在多大程度上激发AI系统的全部能力是一个开放的科学问题。我们使用以下方法来探索能力,但在我们能够声称正在从系统中激发接近或代表一个动机明确的行为者所能达到的“天花板”的能力之前,我们还有很长的路要走:

我们旨在根据我们对风险的评估来调整我们的激发工作,例如,如果担忧包括动机明确且资源充足的恶意行为者,则进行更专门的激发。

除了低估能力外,当在激发和评估中使用相同的任务时,激发也可能高估能力。我们通过明确分离用于激发和测试的任务来缓解这个问题——这是一种机器学习中的标准实践,即“开发/测试分离”。

评分

为了对系统在任务上的表现进行评分,我们使用人类专家或自动评分。自动评分可以对照真实情况(已知为真的信息)进行比较,或使用基于评分标准的自动评分函数,该标准详细说明了完全或部分正确答案所需的组成部分。如果问题是多项选择题,那么自动化评分很容易,但如果我们还提出开放式问题,我们就能更全面地了解模型的能力。挑战在于以具有明确正确答案的方式编写这些开放式问题,然后以LLM可以使用这些评分标准进行准确自动评分的方式编写评分标准。这涉及明确说明正确答案的基本组成部分,并在相关情况下清晰阐述不同的可能选项。此外,需要以迭代方式优化评分LLM的评分prompt,以确保评分标准得到适当使用。

另一个关键考虑因素是,我们的自动评分在多大程度上接近专家人类评分员、整体可靠性以及评分模型中可能存在的任何偏差。我们已在博客从为前沿AI开发问答评估中获得的早期见解中详细介绍了我们的关键设计和方法问题。

预测性评估

评估应力求具有预测性。即使当前没有超过某个阈值,了解它_有多接近_被超过也至关重要。如果任务目前对当前模型来说太难,评估仍应能提供一些信号。一种方法是给不完整的解决方案分配部分分数,或者将具有挑战性的任务分解为更易于管理的子任务及其相关的里程碑。能够识别性能瓶颈的预测性评估将提供一个平滑的指标来跟踪随时间推移的改进,并降低观察到的能力发生突然阶跃变化的可能性。

预注册与质量保证

独立评估者在测试期间经常面临时间压力,例如,如果部署迫在眉睫。这使得评估质量保证具有挑战性。

为了解决这个问题,AISI在使用评估之前会对其进行充分的研究、开发和设计,以便能够立即运行。这意味着在开始接入待测试模型之前,需要记录、审查、迭代和批准实验以及结果报告草案。

这相当于**“预注册”**,旨在:

预注册包括:

6. 如何确保安全与安保?

独立评估者处理极其敏感的信息。这包括在部署前访问给定系统时的商业敏感信息,以及关于AI系统如何被滥用或如何激发有害能力及移除防护措施的敏感信息。评估者的工作也可能导致AI系统带来比初始系统更高的风险,需要相应地进行保护。

我们实施严格的信息安全措施,其程度与潜在能力的风险和商业敏感性相称。AISI与政府信息安全专家合作,确保其系统按照稳健的安全标准构建。这包括定期对其开发环境进行渗透测试、强化端点,以及利用合格安全专业人员的访问权限来预防、缓解和管理潜在的安全事件。

此外,所有AISI安全评估都需遵守现有的政府信息安全操作程序(针对商业敏感信息)以及定制的安全措施。我们的方法将AISI划分为多个组,根据角色进行差异化访问。每个组都有一个指定的名单,并基于“需要知道”原则运作,以最大限度地减少非必要的访问。我们实施两个代码名称元素:一个用于每个主要AI公司,一个用于每个部署前测试活动,我们在技术接入和与测试相关的沟通中使用这些代码名称,以确保测试团队之外的外部信息安全。

7. 有效测试需要什么?

我们在评估方法中学到了很多,但未来仍存在重大挑战和需要取得进展的领域。

访问权限

从我们的经验中可以清楚地看出,为了运行高质量的评估,以获取关于前沿系统潜在风险的高保真信息,独立评估者拥有以下条件很重要:

测试窗口

我们有足够的时间对模型能力进行严格评估,提供结果的质量保证,并在模型部署之前向前沿AI实验室报告,这一点很重要,这与第4节中概述的测试层级一致。我们正在考虑的一个选项是将大部分测试集中在“代理”模型上,这些模型可以更早获得,并且与将要部署的模型足够相似。如何构建此类评估并验证结果,以及如何精确定义相似性,都是开放的科学问题。

合作

评估者能够保护其评估的完整性很重要,例如通过非日志记录保证。我们需要与公司合作,更好地理解分享信息的适当和必要水平,这既能建立对独立评估结果的信任,又能实施有效的缓解措施,同时不透露我们的完整测试方法。

此外,我们需要建立一个关于风险和能力阈值(如上所述)的共享框架和标准,以及这些阈值在缓解措施期望方面意味着什么。与此相关,我们正在发展如何向开发者披露可能与潜在国家安全风险相关的发现的理解。

结论

我们希望这篇博客提供了有用的思考,并激发了评估者和政策制定者的思考。我们在迄今为止的工作中学到了很多,包括在这门不断发展的新兴评估科学中还有多少工作要做。我们渴望与感兴趣的合作伙伴合作,推进这项工作。

译自 UK AI Security Institute · 录于 二〇二六年五月十六日