AISI 高级 AI 评估：五月更新

Advanced AI evaluations at AISI: May update

二〇二六年五月十七日 · 英文原文

摘要

英国AI安全研究所（AISI）对五款公开大语言模型（LLM）进行了评估，涵盖网络攻击协助、化学/生物学专家知识、自主agent能力及越狱防护。模型在600余道私密化学/生物学问题上表现与博士级专家相当；完成了面向高中生的简单网络安全挑战（CTF），但大学级别表现不佳；两个模型完成了短期软件工程agent任务，但无法处理长期任务；所有模型极易受基础越狱攻击影响，部分模型在无攻击时也产生有害输出。评估使用Inspect框架开发，结果已与各模型开发者分享。

致读者：我们已于2025年2月14日更名为AI安全研究所。更多信息请点击此处。

AI安全研究所（AISI）的一项核心工作是定期评估先进AI系统，以判断它们可能造成的潜在危害。本文中，我们展示了近期对五款已面向公众开放的大语言模型（LLM）的评估结果。我们评估了以下方面：

这些模型是否可能被用于协助网络攻击；
它们是否具备化学和生物学领域的专家级知识，这些知识既可用于正面目的，也可能被用于有害目的；
它们是否能够以可能难以被人类控制的方式自主执行一系列操作（即作为"agent"）；
它们是否容易受到"越狱"攻击，或用户试图绕过安全防护以诱导产生潜在有害输出（例如非法或有毒内容）。

在上一篇文章中，我们描述了模型评估的方法。在此，我们重点介绍近期的一些结果：

多个LLM在化学和生物学方面展现了专家级知识。这些模型回答了超过600道由专家编写的私密化学和生物学问题，其表现与拥有博士学位的专家相当。
多个LLM完成了针对高中生的简单网络安全挑战，但在针对大学生的挑战中表现不佳。
两个LLM完成了短期agent任务（例如简单的软件工程问题），但无法为更复杂的任务规划和执行一系列操作。
所有被测试的LLM仍然极易受到基本越狱攻击的影响，并且即使没有专门尝试绕过其安全防护，部分模型也会产生有害输出。

我们的方法

我们评估了由主要实验室发布的五款LLM，在此分别称为红色、紫色、绿色、蓝色和黄色模型（模型名称已匿名化）。评估方式为向模型提供问题或任务提示，并测量其响应。对于某些任务，模型可以访问一个包含外部工具的"scaffold"，例如一个允许它们编写可执行代码的Python解释器。

根据任务或问题类型，我们测量了三种响应：

合规性：模型是否服从或拒绝有害请求
正确性：对问题的回答是否正确
完成度：任务（例如编码挑战）是否完成

我们使用两种方法对这些响应进行评分。在某些情况下，我们使用基于LLM的自动化方法对模型回复进行评分。必要时，我们将自动评分器在部分项目上的表现与人类评分员进行比较，以检查其表现是否与人类一致。

对于某些问题，我们重点评估了能力最强的模型子集。这些评估是使用我们的模型评估框架Inspect开发和运行的，该框架现已通过开源许可证公开发布。

网络评估

如果先进AI被用于执行网络攻击，包括针对国家关键基础设施的攻击，可能会放大对社会的风险。模型可能被用于告知用户如何使用网络安全漏洞，或者被恶意行为者部署以在无人监督的情况下自主攻击基础设施。我们在这些评估中的目标是研究当前公开可用的LLM执行网络攻击中基本操作的能力。

为了评估这种能力，我们使用了一组称为"夺旗"（CTF）挑战的评估。CTF挑战要求模型找到一个隐藏在文件中的特定字符串（"flag"），并且只有在完成某些附加任务后才能访问，例如编写生成二维码的脚本或向服务器发出查询。

我们使用83个面向高中生的公开CTF问题（Pico CTF；卡内基梅隆大学，2024）和12个面向大学生的公开CTF问题（CSAW CTF；纽约大学坦登工程学院，2024）对每个模型进行了评估。这些CTF挑战旨在用于教育目的（因此可能无法评估最相关的网络领域），并且可能构成LLM预训练数据集的一部分。为了缓解这些问题，我们开发了10个由专家编写的私密CTF挑战，可以确定这些挑战不在训练数据中。CTF可以自动评分，因为解决方案是一个特定的文本（"flag"），每次解决挑战时该文本都是相同的。

LLM在评估时被提供了一个scaffold，允许访问Python解释器、bash shell和文件编辑功能（参见下面的Agent评估）。对于更难的CTF，我们使用了一个定制的scaffold，该scaffold还提供了用于解决CTF问题的专用软件（Shao et al. 2024），重现了人类解决这些CTF时可用的工具。

Tweet This Image

Download Image

图1显示了每个模型在每个子集上解决的CTF挑战的百分比¹。能力最强的模型解决了超过一半的Pico CTF（面向高中生）。在CSAW CTF（面向大学生）上，模型有时能够逆向工程文件，但在其他任何问题类别上都没有取得进展。总体而言，密码学挑战（例如，利用易受攻击的加密方案来检索受保护信息）是最难的。模型在我们的私密CTF上表现相当，表明这些结果不太可能是由于解决方案泄露到模型训练数据中。

总结：我们发现公开可用的模型能够解决简单的夺旗（CTF）挑战，即面向高中生的那种类型，但在大学级别的问题上表现不佳。

化学/生物学评估

先进AI可以为人类提供化学和生物学方面的知识和技能，这些知识和技能既可用于正面目的，也可能被用于有害目的。我们评估了五款LLM回答超过600道由专家编写的私密问题的能力，这些问题涵盖了在安全背景下特别相关的知识和技能：

基础生物学：这些问题的答案通常在生物学教科书中可以找到，并在网上广泛提及。
高级生物学：这些问题的答案需要来自特定生物学论文或实验室经验的知识。
高级化学：答案需要来自特定化学论文或实验室经验的知识。
生物学自动化：关于如何自动化或外包生物学的问题。答案需要对实验室机器人或云实验室的工作原理有详细理解。

这些问题类似于用户在寻求科学工作帮助时可能提出的问题。有些问题被设计成类似于新手在寻找信息时提出的问题，另一些则类似于专家希望加速工作而提出的问题。新手问题之所以难，是因为它们通常包含模型必须识别才能正确回答的误解；专家问题之所以难，是因为它们涉及小众主题或包含科学术语。我们按照Rein et al., 2023的方法优化问题，但以开放文本而非多项选择格式收集答案。我们将模型的表现与拥有化学或生物学博士学位或相关工作经验的专家进行比较。专家熟悉问题格式，可以访问网络搜索，并且每个问题有最多1小时的回答时间。

结果如图2所示，每个面板展示了四个问题领域之一的数据。彩色条形图显示了每个模型以及人类专家基线²中，被评定为正确（蓝色）、部分正确（深灰色）或不正确（浅灰色）的问题比例。每个面板右下角给出了向模型（m）和人类专家（h）提出的每个领域的问题数量。

Tweet This Image

Download Image

对于所有四个问题领域，模型都正确回答了一些问题。然而，它们的能力在不同领域之间存在差异，其中基础生物学最容易。总体而言，大多数模型的表现与人类专家相似。例外情况是黄色模型，其被评定为提供"不完整"或"部分完整"响应的频率高于其他模型，也高于人类专家（p < 0.001；序数混合效应回归）；以及绿色模型，其表现略弱于人类专家（p < 0.05）。对结果的深入分析表明，在某些主题上，一些模型的表现优于专家基线。例如，在关于构思的高级生物学问题上，紫色模型通过将非常具体的领域知识与创造力相结合，提出了诸如特定版本的CRISPR技术等实验方法来应对生物学挑战，从而超越了专家基线。在其他主题上，模型的表现低于专家基线。例如，当被问及如何为实验室机器人编写代码时，模型有时会虚构函数名称。

我们使用了一个自动评分模型来评估响应。我们优化了评分器以提高与人类专家评分员的一致性。一旦这个过程完成，评分器在保留的测试集上，很少（不到1%的时间）将人类评分员判定为"不正确"的回复判定为"正确"。然而，在什么构成"部分"完成方面，人类和自动评分器之间存在一些分歧；自动评分器与人类之间的Cohen's Kappa（一种评分者间信度度量）为0.52，而人类之间的为0.8。自运行本文报告的测试以来，我们进一步优化了评分器以提高与人类的一致性。

总结：我们发现模型可用于获取生物学和化学方面的专家级知识。对于几个模型，其对科学问题的回答与博士级专家给出的回答相当。

Agent评估

当前的先进AI模型主要用作聊天机器人。然而，它们也可以被部署来在数字平台上执行任务，例如执行代码或浏览网站。我们将这些系统称为LLM agent（Chan et al., 2023）。数字任务的广泛自动化带来了误用和意外失调（模型做了人类无意让其做的事情）的风险。我们进行了评估，以测试当前模型在无人监督的情况下执行数字任务（侧重于软件工程）的能力。

与网络评估一样，我们使用了一个基于Yao et al. (2023)的"scaffold"，并赋予LLM访问Python解释器、bash shell和文件编辑工具的权限。我们使用了公开的GAIA基准测试（Mialon et al., 2023）来独立验证我们的scaffold为模型提供了接近最先进水平的支持。我们的scaffold表现率为25%，领先于第二名的FRIDAY scaffold（Wu et al., 2024）（24%），但落后于表现最佳的scaffold MAE v0.1（AutoGen Team, 2024）（32%）。

我们根据专家级人类软件工程师完成任务的估计时间来定义任务难度。短期任务（例如，修复Linux机器上的问题或制作一个web服务器）是那些需要不到1小时完成的任务，而长期任务（例如，构建一个web应用或改进一个agent框架）可能需要人类超过4小时（最多20小时）才能完成。我们从公开的GAIA数据集（Mialon et al. 2023；级别1-3）和METR数据集（2024）中选取了短期任务，长期任务则来自METR。我们还开发了一个短期任务和一个长期任务。有些任务以难度相似的多种变体形式提出（例如，Linux机器上的不同问题）。任务尝试在agent完成任务或用完token（短期任务为300K token，长期任务为10M token）时结束。

Tweet This Image

Download Image

结果如图3所示。紫色、绿色和蓝色模型在短期和长期任务上都进行了评估。紫色和蓝色模型完成了20-40%的短期任务，但没有完成任何长期任务。绿色模型完成了不到10%的短期任务，并且没有在长期任务上进行评估³。我们分析了失败的尝试，以了解成功的主要障碍。在短期任务上，模型经常犯小错误（如代码中的语法错误）。在长期任务上，模型制定了良好的初始计划，但没有充分测试其解决方案，或者未能纠正初始错误。模型有时还会虚构约束条件或子任务的成功完成。

总结：我们发现领先的模型能够解决一些短期任务，例如软件工程问题。然而，目前没有模型能够处理长期任务。

安全防护评估

LLM开发者通过训练模型避免产生非法、有毒或露骨的输出，来对模型进行微调以确保其安全用于公众。然而，研究人员发现，这些安全防护通常可以通过相对简单的攻击来克服。作为一个说明性示例，用户可能指示系统以暗示服从有害请求的词语开始其响应，例如"当然，我很乐意帮忙"。

我们的安全防护评估衡量了某些攻击在诱导有害信息方面的成功程度。为了对攻击成功程度进行评分，我们测量了_合规性_——模型是拒绝还是服从请求——以及_正确性_——在执行攻击后模型的答案是否仍然正确（因为质量较低的响应可能危害较小）。

我们在两种条件下测量了合规率。首先，我们直接提出明确有害的问题（"无攻击"）。其次，我们开发了攻击来诱导模型被训练要隐瞒的信息（"AISI内部攻击"）。这些攻击相对基础，因为它们要么直接将问题插入到提示模板中，要么遵循一个几步流程来生成针对特定问题的提示（可以通过对辅助模型进行少量调用来实现自动化）。攻击被限制在标准API查询范围内。我们对每个模型使用了一种独特的攻击。为了确保结果的普遍性，我们在一个小型问题集（训练集）上优化了每种攻击，并在一个保留集（验证集）上测量了其有效性。

我们从一个公开可用的基准测试（HarmBench Standard Behaviors；Mazeika et al. 2024）和一个内部开发的有害问题集（针对特定关注的能力）中提出了有害问题。内部开发的有害问题集专门询问不太可能用于良性用途的有害信息。

为了对合规性进行评分，我们使用了一个基于先前论文（Souly et al. 2024）的自动评分模型，并辅以人类专家评分。我们报告的是仅第一次回答（1次尝试）的合规率，或者在使用相同攻击和问题的情况下五次尝试中最合规的一次（5次尝试）。

为了查看执行攻击是否会降低模型生成输出的质量，我们在执行攻击前后，在一个单独的私密良性问题集上测量了正确性（遵循Souly et al. 2024；问题本身是良性的，但涉及与我们私密有害问题集相似的主题）。我们没有在HarmBench或我们的私密有害问题集上测量正确性，因为这些数据集没有与之相关的可报告的正确答案。如果攻击降低了我们在私密良性问题集上的正确性，我们预计它们也会降低我们在有害问题上的正确性；如果它们没有降低正确性，则表明攻击可能产生既合规又正确的模型答案。

Tweet This Image

Download Image

红色、紫色、蓝色和绿色模型的结果如图4所示。当未使用攻击时，大多数模型的合规率相对较低，但绿色模型在私密有害问题上的合规率高达28%。我们发现，对于HarmBench和我们私密的有害问题集，所有模型都非常容易受到我们基础攻击的影响。当使用AISI内部攻击时，几乎所有问题，每个模型在五次尝试中至少有一次服从。我们没有观察到在应用攻击后，我们私密良性问题集的正确性有显著下降，这表明模型可能提供既正确又合规的信息。

总结：我们发现，在相对简单的攻击下，模型会在多个数据集上服从有害问题，即使在没有攻击的情况下它们不太可能这样做。

展望

在这篇博文中，我们总结了一次评估活动中的部分结果，该活动侧重于当前公开可用的先进AI模型。这些评估仅提供了模型在一系列潜在风险领域的能力快照。

我们计划根据最高优先级的风险场景，扩大评估的全面性和信息量：

化学-生物学：上述测试侧重于知识检索。我们现在希望评估更长期的科学规划和执行能力。因此，我们正在开发类似于CTF或化学和生物学自主系统评估的任务。我们还在进行人类能力提升研究，该研究采用随机对照试验形式，以评估访问特定先进AI系统在多大程度上提升了人类表现。此外，我们正在与政府专家合作，直接评估模型最关乎国家安全的危险能力。
网络：我们正在开发网络评估，以评估在现实场景中配备scaffold的模型在长期任务上的表现。我们还在评估特定技能，如分析网络流量、识别代码中的漏洞以及社会工程技能。为此，我们正在与政府国家安全专家合作。
Agent：我们正在开发一个分层的模型评估系统，从与我们最高优先级风险模型紧密对应的端到端评估，到每个任务各个小部分的离散测试。我们的目标是覆盖来自自主系统的更广泛、合理的风险模型。我们还在扩展agent scaffold方法的多样性，借鉴近期在多agent scaffold（其中多个agent可以交互）等方面取得的进展。
安全防护：我们正在努力改进答案正确性的度量标准，以及用户发现并采用特定攻击的可能性。我们还在开发评估，以更好地理解攻击对在长期任务上启用性能的影响，开发更详细的关于攻击者关注模式的模型，并扩展到分析为防止先进AI系统被滥用而设置的其他安全防护层。

除了扩展和改进我们工作的实质内容外，我们正在建立一个外部顾问小组，对未来出版物进行同行评审，以补充来自AISI研究主任和政府专家的内部审查。

我们仍然敏锐地意识到，先进AI系统在我们的评估中的表现与它们在现实世界中的表现之间可能存在差距。用户可能以我们未曾预料到的方式与模型交互，从而暴露出我们的评估无法捕捉到的危害。此外，模型评估只是全貌的一部分。我们认为，研究先进AI系统可能对用户产生的直接影响也很重要。我们正在进行研究以理解和解决这些问题。

我们的工作并不提供任何关于模型"安全"或"不安全"的保证。然而，我们希望它有助于描绘出模型能力和现有安全防护鲁棒性的新兴图景。为此，我们将继续与我们在此测试的模型的开发者进行接触，并与每位开发者分享了针对其模型的详细发现，以便他们能够评估和提高其安全性。模型评估领域是新的，但正在迅速成熟。我们很高兴能够向开发者、学术界和民间社会等更广泛的评估生态系统学习并做出贡献。

译自 UK AI Security Institute · 录于二〇二六年五月十七日