评估前沿AI系统的早期经验

Early lessons from evaluating frontier AI systems

二〇二六年五月十六日 · 英文原文

摘要

英国AI安全研究所（AISI）自2023年11月组建全球最大安全评估团队之一，已发布开源评估框架Inspect AI，并对主要公司的4个大语言模型（LLM）完成测试。AISI聚焦滥用、社会影响、自主系统与防护措施四类风险，采用自动化评估、AI agent评估、专家红队测试及人类提升研究三种测试层级（轻量级、标准、强化），并建立能力阈值与风险模型对齐机制。评估需预注册实验设计，实施严格信息安全措施，确保模型访问权限与测试窗口。

致读者：我们已于2025年2月14日更名为AI安全研究所。了解更多信息请点击此处。

引言

AI安全研究所（AISI）的使命是为政府提供对前沿AI系统安全性的实证理解。为实现这一目标，我们设计并运行评估，旨在衡量可能带来风险的AI系统的能力。

自2023年11月以来，我们已组建了全球最大的安全评估团队之一，领导团队由世界级研究人员组成，与美国AISI建立了谅解备忘录（MoU），并开始实施联合测试。我们还发布了开源评估框架，报告了对主要公司4个大语言模型的测试结果，并进行了多次部署前测试。

但这仅仅是开始。模型评估是一门新兴且快速发展的科学，我们定期迭代方法。我们将继续壮大团队，提升能力以应对挑战和开放的科学问题。如果你对此充满热情，请加入我们！

这篇博客阐述了我们迄今为止关于如何设计和运行第三方评估的思考，包括需要考虑的关键要素和开放性问题。其目的并非提供稳健的建议，而是希望就此公开讨论这些实践，并向他人学习。

我们将讨论第三方评估者的角色及其可针对的测试目标，包括测试哪些系统、何时测试，以及测试哪些风险和能力。我们还将探讨如何有效评估，包括针对不同目的使用哪些测试、如何开发稳健的测试，以及如何确保安全与安保。

1. 第三方评估者的角色是什么？

对前沿AI系统的独立评估可以提供特定系统能力和脆弱性的快照。尽管我们认为这门科学尚处于初期阶段，独立评估还无法承担"认证"功能（即提供关于特定系统"安全"的可靠保证），但它们是激励各方尽最大努力提升安全性的关键部分。由政府或其他第三方完成的独立评估为AI公司、政府和公众带来了关键益处，包括：

提供对公司在能力和安全性方面声明的独立验证来源：第三方评估通常因其独立性和无利益冲突（包括选择评估哪些风险）而具有合法性。它们可以测试和评估公司的安全性声明并提供反馈。这通过消除真实或感知到的冲突或偏见，支持了公众信心和安全。
作为前沿AI开发者的建设性合作伙伴，提升系统安全性：评估是决策者判断给定系统及其部署的风险缓解措施是否充分的关键工具。独立评估补充了开发者的内部评估：它们提供了比开发者自身可能发现的更全面的能力概况以及防护措施和风险评估。例如，开发者可以根据针对特定对抗性攻击的反馈来改进模型防护，或在模型对明确有害请求做出回应的风险领域进行改进。
推进评估科学：尝试对AI系统进行严格评估的参与者越多，围绕这些挑战的科学社区就越丰富。从多个角度和视角处理前沿AI风险评估问题具有巨大的复合价值。
确保政府的准备和认知：评估加深了我们对AI系统如何影响人类和社会的理解。这对于让政府和机构了解新兴风险以及增强社会韧性的关键政策干预至关重要。重复评估对于长期跟踪能力和防护措施至关重要——使政府能够审查和调整其应对措施。

由国家机构完成的独立评估为政府带来了额外益处：

国家安全：国家支持的评估者还拥有独特的能力和专业知识，可以将信息纳入评估，以评估AI带来的国家安全相关风险。

综上所述，独立评估的这些益处对于AI系统（无论是现在还是未来）的安全、可靠和可信赖的开发与使用至关重要。

2. 测试哪些系统以及何时测试？

AISI的使命是建立对前沿AI安全性的实证理解。在第一年，我们的重点放在那些我们认为能提供关于AI前沿及其发展最佳洞察的AI系统上。

在实践中，这意味着我们专注于评估那些可能在通用能力上达到或超越当前最先进水平（SOTA）的系统。一种评估方法是使用“缩放定律”。作为识别此类系统的代理，该定律表明用于训练的计算量与能力之间存在相关性。

我们知道这并不完美，可能会遗漏其他可能带来风险的系统。未来，我们旨在开发一种稳健的方法，用于确定哪些系统可能带来令人担忧的能力跃升，从而值得跟踪和评估。

此外，还有一个关于_何时_测试系统的决策。我们现在与公司合作进行部署前测试，我们认为这构成了预期风险暴露的阶跃变化，同时我们也在进行部署后测试，以监控“野外”性能，并为比较新系统建立基线。

更精细的方法是在整个AI生命周期的各个时间点进行测试，当我们预计风险会以值得监控或优先处理的有意义方式增加时，例如：

在训练或部署期间，当模型超过先前SOTA时进行测试：通过在通用能力基准上进行测试。
部署后的重大系统变更：这些可能是重大的模型更新或系统功能发布。示例包括与模型关联的新工具（如网络搜索或与其他软件的链接）、针对特定领域的微调、更长的上下文窗口，或允许使用新方法来激发能力（如提供微调API）。
影响能力的重大外部发展：第三方的研发进展可能允许用户激发新能力，例如，新agent框架的发布或发现激发能力或绕过防护措施的新方法。

3. 测试什么？

AISI目前在我们的评估中优先考虑以下领域：

滥用：评估AI如何有意义地协助行为者造成伤害。我们专注于化学和生物能力的滥用以及网络攻击能力，这些领域的危害规模可能特别大。
社会影响：评估前沿AI系统对个人和社会的直接影响，包括心理风险，例如人们信念被操纵的程度，或AI建议是否安全有益。
自主系统：评估AI系统是否能够以可能限制人类监督的方式自主执行一系列动作（作为“agent”运行）。
防护措施：评估前沿AI系统安全组件针对可能绕过防护措施的各种威胁的强度和有效性。

我们选择这些领域的一般启发式方法是关注具有最大潜在危害的关键风险。最近发布的临时性国际高级AI安全科学报告全面概述了前沿AI系统的风险和能力，帮助我们识别哪些风险应归类为评估的关键风险。我们还专注于我们认为政府因其特定专业知识（例如在国家安全领域）可以增加价值的领域，以及不会与其他地方的工作重复的领域。我们定期考虑是否更改或增加我们的评估套件，并在过去一年中扩展了我们的关注范围；例如，我们的社会影响团队现在考虑AI系统助长犯罪滥用和社会不稳定的可能性。

风险建模与能力阈值

如果我们想正确理解AI系统如何可能产生风险，我们的评估需要围绕特定的危害路径来设计。我们需要清楚地理解我们衡量的能力（例如某些编码能力）如何可能导致现实世界的危害（例如协助对关键基础设施的网络攻击）。因此，我们已开始通过系统的风险建模过程来绘制这些潜在的危害路径。风险建模提供了对需要管理的风险的更清晰理解，但由于前沿AI的新颖性及其能力的双重用途特性，这可能是具有挑战性的。例如，通用AI系统具有广泛的应用，使得难以预测所有潜在风险。AI系统外部的因素也可能影响风险，这使得仅通过评估系统来进行评估变得困难。最后，详细的風險建模通常需要关于特定危害路径和威胁行为者的高度敏感信息。

尽管存在这些挑战，我们致力于做好这项工作。没有详细和严格的风险建模，我们无法将评估结果转化为对风险的实际评估。

前沿AI开发和部署决策的黄金标准应包括一套全面且明确定义的风险和能力阈值，这些阈值除非得到适当缓解，否则可能导致不可接受的结果。我们认为政府可以发挥重要作用，正如27个国家和欧盟在2024年AI首尔峰会上所承认的那样。因此，我们已开始着手确定能力阈值：特定的AI能力，这些能力预示着潜在的严重风险，可以进行测试，并应触发某些行动以缓解风险。它们对应于我们风险建模中的危害路径，例如能够消除恶意行为者当前障碍或解锁新危害方式的能力。

评估、能力阈值与风险模型之间的一致性

如上所述，我们希望我们的评估和风险模型紧密对齐。因此，我们正在努力开发能够清晰映射到所有相关路径和能力的评估。我们的目标是最终用一套评估来操作化每个能力阈值，并提前明确定义哪些评估结果我们认为超过了阈值。这将是一个迭代过程，评估的见解将反馈给我们的风险模型，反之亦然。在我们朝着这一长期目标努力的同时，我们的风险建模已经指导了我们开发哪些评估，并提供了一个解释结果的框架。

我们旨在如何根据风险模型定制评估的示例包括：

真实模拟相关行为者：例如，如果风险模型关注的是经验不足的行为者造成的危害，那么评估中使用的prompt应模拟用户有限的经验。这可以通过直接从此类用户与AI系统的记录交互中获取prompt来实现。
确保覆盖风险模型：例如，我们发现不同网络领域的评估表现可能差异很大。因此，一个领域的低表现不足以评估AI系统在其他领域可能提供的帮助程度。同样，评估应涵盖AI系统可能提供帮助的所有相关方式，例如提供专业技能或通过自动化提高效率。
验证评估是否真实评估了危害路径：并不总是可能直接测试AI系统是否能为恶意行为者提供相关的提升。例如，直接探索造成大规模危害的能力将是危险的。因此，我们可能会使用这些能力的代理。然后，我们需要仔细验证这些代理是否合适，开发清晰的证据并与领域专家合作。

4. 针对不同目的使用哪些测试？

评估者可以使用多种技术，这些技术可以单独使用或组合使用。AISI目前使用以下技术：

自动化能力评估：评估模型是否能在给定领域提供指导、故障排除和辅导。这包括简短的开放式问答集和较长的基于任务的评估。为了确定能力上限，使用了多种能力激发技术和模型脚手架。基准问题的回答由LLM根据领域专家编写的评分标准自动评分。这些“自动评分器”使用人类专家给出的分数进行校准。自动化评估通常具有可扩展性和运行效率，因此可用于覆盖大部分令人担忧的能力。然而，这种方法并不能反映现实世界的使用情况。相反，其意图是让自动化测试的结果为红队测试和人类提升研究（见下文）提供指示并与之关联。鉴于这一局限性，以及能力激发改进和评分错误的可能性，不应仅从孤立的自动化测试中直接得出强有力的结论（详见我们的单独博客文章）。
AI agent评估：将AI系统嵌入agent框架，并评估其能力，例如在复杂的多步骤任务中的自主操作和长期规划。这是自动化能力评估的一个子集，其中模型被提供一个“脚手架”，该脚手架由一组工具、一个prompt程序和错误处理组成，以帮助模型解决故障。AISI广泛使用的一种方法是将任务格式化为“夺旗挑战”（CTF），这要求agent找到隐藏在目标计算机系统中的“旗标”。这种任务格式非常灵活，允许评估各种（例如网络）技能和难度级别，包括复杂的多步骤任务。CTF还允许根据旗标捕获进行自动评分以判断成功与否。一个关键的开放问题是，是否应将新agent评估的开发重点放在狭义定义的任务上，还是更大、更现实的开放式任务上。
专家红队测试：部署领域专家花时间与模型交互，以测试其能力和模型防护措施。这种方法通过以更自然、更开放的方式模拟测试模型能力和防护措施，补充了自动化评估。AISI使用两种方法：基于场景的探测和基于目标的探测。

基于场景的探测涉及评估模型在感兴趣的场景（例如进行特定犯罪活动）中，对预先指定且相对明确的步骤提供帮助的能力。
基于目标的探测涉及从一个高层次目标开始，例如“赚很多钱”，并以更开放的方式探索模型能在多大程度上实现该目标。

红队测试提供了对模型能力的深入和切实的洞察，但由于所需的人力投入，它比自动化技术更耗费资源。因此，红队测试通常覆盖比自动化测试更窄的领域，并且通常每个场景只测试一次。

针对滥用的人类提升或影响评估：将AI系统与现有工具（如互联网搜索）进行比较，以评估人类在AI辅助下是否能在特定任务上有所提升。人类提升研究对于所有评估的基线设定都很重要，因为它们揭示了人类实际上如何自然使用AI系统，以及使用AI系统与不使用AI系统相比的性能表现。因此，人类研究可以告知AI系统的何种能力水平可能值得关注，然后可以通过资源密集度较低的自动化评估进行跟踪。需要仔细选择任务，以确保它们实际上不会造成伤害，但仍能提供关于滥用风险的见解。人类研究耗时，需要非常仔细的设计和结果分析，因此实际上无法覆盖所有令人担忧的领域或能力。

一个关键挑战是在紧迫的时间表内（尤其是在部署前）提供严格的评估。我们当前的试点方法采用不同的测试层级来解决这个问题；如果更快、更自动化的评估产生了令人担忧或令人惊讶的发现，则会触发更深入的评估。我们对层级的思考如下：

第1层 – 轻量级（自动化）：用于快速识别特定领域的潜在问题。此层级涉及可扩展、运行高效的自动化评估，允许跨多个领域进行大量测试。缺点包括准确性低，并且对测试的能力是否代表最先进的能力信心不足（参见_激发_）。此类测试可以在几天内完成，包括质量保证和报告在内的端到端过程可在1-2周内完成。
第2层 – 标准（包括人工努力）：当第1层评估表明在关注领域内，与之前的SOTA相比，相关能力有所提升时，用于得出有意义的结论。这些包括手动和定制的能力激发以及开发新的攻击策略。它们还可能涉及有限的人类探索，深入查看成功或失败的具体示例以获得定性见解，以及一些专家红队测试。此类测试可在1-2周内完成。
第3层 – 强化（广泛的人工努力）：用于在出现显著能力跃升或第2层发现令人担忧的结果时，进行非常深入和严格的能力或防护措施评估。这些包括全面的专家红队测试，并可能包括人类提升研究。此类测试可能需要数周时间。

这些层级是正在进行的工作，代表了我们理想中的最终状态。一个关键的开放科学问题是，一个层级的结果在多大程度上可以用作更高层级的代理（以及具体在哪些情况下不成立，例如，如果较低层级的测试产生假阴性，或者其设计的能力门槛低于令人担忧的水平），从而可能无需运行更昂贵和耗时的评估。

我们还一直在开发运行各种评估和层级所需的基础设施和工具，以使其尽可能高效、有洞察力和高质量。我们的测试使用Inspect AI编写，这是一个我们为内部使用和更广泛的评估生态系统创建的开源模型评估框架。Inspect提供了最先进的能力，包括灵活的prompt工程、多轮对话、agent脚手架和模型评分。我们创建它是为了内部使用和更广泛的评估生态系统。

5. 如何开发稳健的测试？

基线

对于我们所有的测试，我们都开发基线，这对于解释关于风险的实证结果和结论至关重要。模型以人类（根据所评估的风险模型，可以是专家或非专家）或其他最先进模型为基线。

我们通过定期在公开可用的系统集上运行我们的自动化和agent评估套件来开发这些基线。在建立这些基线时，一个关键问题是，在时间限制下，应在每个模型的定制激发上投入多少精力，以及这对比较不同系统的结果以及我们对评估能力极限的信心有何影响。

此外，在选择人类用户建立基线时存在几个设计问题，例如：测试对象是否可以访问互联网，以及他们有多少时间执行任务；测试对象是否有表现良好的激励，以及我们是否创建检查来监控注意力；以及测试对象具有何种专业水平，特别是与风险模型相关的专业水平。

能力激发

独立评估难以设计，因为模型或系统的全部潜在能力可能难以评估。用户可以通过不可预见的方式改进或修改能力，例如通过prompt工程、微调或提供对软件工具的访问。还有人担心AI系统可能被操纵以在未来的特定评估任务中失败，从而使这些任务无法代表底层能力。

评估能在多大程度上激发AI系统的全部能力是一个开放的科学问题。我们使用以下方法来探索能力，但在我们能够声称正在从系统中激发接近或代表一个动机明确的行为者所能达到的“天花板”的能力之前，我们还有很长的路要走：

Prompt工程：设计输入给模型的输入，例如文档、问题、图像或代码，以实现期望的结果。
超参数：确定产生最强性能的模型参数集（例如temperature，它影响模型输出的可预测性和多样性之间的平衡）。
微调：针对特定任务集或上下文进行额外训练，例如，在所评估领域的问答集上进行训练。
突破防护措施：开发者通过防护措施阻止用户访问某些能力。评估底层能力可能需要努力绕过这些措施。
脚手架：围绕模型构建一个软件包，以增强其能力，例如，通过提供对互联网或文件管理的访问，或重复查询模型并处理模型返回的信息。

我们旨在根据我们对风险的评估来调整我们的激发工作，例如，如果担忧包括动机明确且资源充足的恶意行为者，则进行更专门的激发。

除了低估能力外，当在激发和评估中使用相同的任务时，激发也可能高估能力。我们通过明确分离用于激发和测试的任务来缓解这个问题——这是一种机器学习中的标准实践，即“开发/测试分离”。

评分

为了对系统在任务上的表现进行评分，我们使用人类专家或自动评分。自动评分可以对照真实情况（已知为真的信息）进行比较，或使用基于评分标准的自动评分函数，该标准详细说明了完全或部分正确答案所需的组成部分。如果问题是多项选择题，那么自动化评分很容易，但如果我们还提出开放式问题，我们就能更全面地了解模型的能力。挑战在于以具有明确正确答案的方式编写这些开放式问题，然后以LLM可以使用这些评分标准进行准确自动评分的方式编写评分标准。这涉及明确说明正确答案的基本组成部分，并在相关情况下清晰阐述不同的可能选项。此外，需要以迭代方式优化评分LLM的评分prompt，以确保评分标准得到适当使用。

另一个关键考虑因素是，我们的自动评分在多大程度上接近专家人类评分员、整体可靠性以及评分模型中可能存在的任何偏差。我们已在博客从为前沿AI开发问答评估中获得的早期见解中详细介绍了我们的关键设计和方法问题。

预测性评估

评估应力求具有预测性。即使当前没有超过某个阈值，了解它_有多接近_被超过也至关重要。如果任务目前对当前模型来说太难，评估仍应能提供一些信号。一种方法是给不完整的解决方案分配部分分数，或者将具有挑战性的任务分解为更易于管理的子任务及其相关的里程碑。能够识别性能瓶颈的预测性评估将提供一个平滑的指标来跟踪随时间推移的改进，并降低观察到的能力发生突然阶跃变化的可能性。

预注册与质量保证

独立评估者在测试期间经常面临时间压力，例如，如果部署迫在眉睫。这使得评估质量保证具有挑战性。

为了解决这个问题，AISI在使用评估之前会对其进行充分的研究、开发和设计，以便能够立即运行。这意味着在开始接入待测试模型之前，需要记录、审查、迭代和批准实验以及结果报告草案。

这相当于**“预注册”**，旨在：

确保测试团队对报告的外观有清晰的认识和一致性。
最大限度地减少测试阶段所需的不确定性和工作量。
确保有足够的时间进行监督和可操作的质量保证（QA）及反馈，包括来自我们的研究主任和外部顾问的反馈，然后将其整合到长期的评估研发中。

预注册包括：

背景：在更广泛的文献和参考文献中的框架和背景，风险模型。
方法论：任务/数据集描述、基线、评分协议、结果分析和呈现。
能力激发协议：在获得模型访问权限后，进行prompt（总体和脚手架相关）实验和调整、工具设置和越狱的阶段。这些的协议或指南在范围内，而最终的prompt、设置、超参数不在预注册范围内。
结果的总体形式：预期的声明、标题陈述。

6. 如何确保安全与安保？

独立评估者处理极其敏感的信息。这包括在部署前访问给定系统时的商业敏感信息，以及关于AI系统如何被滥用或如何激发有害能力及移除防护措施的敏感信息。评估者的工作也可能导致AI系统带来比初始系统更高的风险，需要相应地进行保护。

我们实施严格的信息安全措施，其程度与潜在能力的风险和商业敏感性相称。AISI与政府信息安全专家合作，确保其系统按照稳健的安全标准构建。这包括定期对其开发环境进行渗透测试、强化端点，以及利用合格安全专业人员的访问权限来预防、缓解和管理潜在的安全事件。

此外，所有AISI安全评估都需遵守现有的政府信息安全操作程序（针对商业敏感信息）以及定制的安全措施。我们的方法将AISI划分为多个组，根据角色进行差异化访问。每个组都有一个指定的名单，并基于“需要知道”原则运作，以最大限度地减少非必要的访问。我们实施两个代码名称元素：一个用于每个主要AI公司，一个用于每个部署前测试活动，我们在技术接入和与测试相关的沟通中使用这些代码名称，以确保测试团队之外的外部信息安全。

7. 有效测试需要什么？

我们在评估方法中学到了很多，但未来仍存在重大挑战和需要取得进展的领域。

访问权限

从我们的经验中可以清楚地看出，为了运行高质量的评估，以获取关于前沿系统潜在风险的高保真信息，独立评估者拥有以下条件很重要：

访问模型的“仅有用”（HO）版本，以及将要部署的“有用、诚实且无害”（HHH）版本，能够打开/关闭信任与安全防护措施，以及微调API访问权限。尽可能充分地激发模型的能力对于评估系统中的潜在风险水平以及现有缓解措施的充分性至关重要。
在测试之前和测试期间，与给定公司中最有经验评估相关模型/系统的团队进行定期的技术讨论，包括提供关于模型能力和激发技术的信息、已实施/计划为部署系统实施的防护措施，以及我们可以用于校准的内部评估结果。

测试窗口

我们有足够的时间对模型能力进行严格评估，提供结果的质量保证，并在模型部署之前向前沿AI实验室报告，这一点很重要，这与第4节中概述的测试层级一致。我们正在考虑的一个选项是将大部分测试集中在“代理”模型上，这些模型可以更早获得，并且与将要部署的模型足够相似。如何构建此类评估并验证结果，以及如何精确定义相似性，都是开放的科学问题。

合作

评估者能够保护其评估的完整性很重要，例如通过非日志记录保证。我们需要与公司合作，更好地理解分享信息的适当和必要水平，这既能建立对独立评估结果的信任，又能实施有效的缓解措施，同时不透露我们的完整测试方法。

此外，我们需要建立一个关于风险和能力阈值（如上所述）的共享框架和标准，以及这些阈值在缓解措施期望方面意味着什么。与此相关，我们正在发展如何向开发者披露可能与潜在国家安全风险相关的发现的理解。

结论

我们希望这篇博客提供了有用的思考，并激发了评估者和政策制定者的思考。我们在迄今为止的工作中学到了很多，包括在这门不断发展的新兴评估科学中还有多少工作要做。我们渴望与感兴趣的合作伙伴合作，推进这项工作。

译自 UK AI Security Institute · 录于二〇二六年五月十六日