国际联合测试演习：Agentic 测试

International joint testing exercise: Agentic testing

二〇二六年五月十五日 · 英文原文

摘要

由新加坡、日本、澳大利亚、加拿大、欧盟委员会、法国、肯尼亚、韩国和英国代表组成的国际网络开展了第三次联合AI智能体测试演练，重点评估LLM智能体在敏感信息泄露、欺诈及网络安全方面的风险。演练使用约1,500个任务和1,200个工具，覆盖九种语言，对开放权重与封闭权重模型进行测试。结果显示，智能体安全率低于对话任务，英语安全防护略强但非普遍适用；LLM-as-a-judge与人工标注差异率约23-28%，尚不可靠替代人类评估。网络安全方向发现温度、token限制等参数影响评估稳健性，建议在少数任务上预扫描优化设置。

由国际网络各参与方联合开展，包括来自新加坡、日本、澳大利亚、加拿大、欧盟委员会、法国、肯尼亚、韩国和英国的代表。

来自国际网络的各参与方，包括新加坡、日本、澳大利亚、加拿大、欧盟委员会、法国、肯尼亚、韩国和英国的代表，共同协调他们在智能体评估（agentic evaluations）方面的方法。

这是第三次演练，基于该网络在2024年11月和2025年2月进行的两次早期联合测试演练的见解。这些演练的目标是让网络能够进一步完善测试先进AI系统的最佳实践。

第三次演练的目标是推进AI智能体评估的科学，并致力于为测试AI智能体建立共同的最佳实践。本次演练的重点是"LLM智能体（LLM agents）"，这是一种利用基础LLM模型自动推理问题、规划行动方案、使用工具并执行任务的智能体系统。自主AI系统的快速崛起和智能体能力的进步，由于对其现实世界交互的监督减少，引入了新的风险。然而，智能体测试仍处于起步阶段，仍是一门发展中的科学。随着AI智能体开始在全球部署，确保这些智能体能够准确、安全地处理不同语言和文化也至关重要。

本次演练分为两个方向——常见风险：敏感信息泄露与欺诈（由新加坡AISI牵头）和网络安全（由英国AISI牵头）。针对来自各种公开智能体基准（agentic benchmarks）的任务，对一组开放权重和封闭权重的模型进行了评估。

鉴于智能体测试的新颖性，我们的主要重点是理解进行智能体测试时的方法论问题，而不是检查测试结果和模型能力。先前的测试演练表明，"小的方法论变化可能对测试结果产生重大影响"。因此，我们的目标是为未来的评估工作提供信息并加以完善。

事实证明，传统的评估方法无法为自主智能体行为的复杂性提供可靠的见解，这凸显了对新方法的需求。为弥补这一差距，参与国贡献了其集体的技术和语言专业知识。随着参与者共同努力推进智能体评估的科学，此次合作标志着向前迈出了重要一步。

针对敏感信息泄露与欺诈的智能体测试

该方向探讨了两个关键问题：

a) 在敏感信息泄露和欺诈等常见风险类别中，模型作为智能体的安全性如何？

b) 模型作为评估智能体行为的评判者（judges）效果如何？此外，这些观察结果在不同语言中是否一致？

测试中的关键变化维度包括：

模型：两个模型（一个开放权重，一个封闭权重）作为智能体，匿名化为模型A和模型B；两个模型（一个开放权重，一个封闭权重）作为评判者，匿名化为模型C和模型D。
语言：九种语言——英语、波斯语、法语、印地语、日语、斯瓦希里语、韩语、普通话、泰卢固语。
风险类别：敏感信息泄露与欺诈。
数据集：约1,500个任务和约1,200个工具。
评估：评判模型（LLM-as-a-judge）和人工标注。参与者进行了人工标注，以审查LLM-as-a-judge在其语言中的响应。

新加坡领导了此次演练，以下国家积极参与：

法国和肯尼亚为数据集贡献了新的任务和工具。
澳大利亚、日本和韩国验证了新加坡英语数据集的标注。
法国和韩国对温度、模型和评估提示进行了测试变体；澳大利亚和法国在其评估中包含了额外的指标。
澳大利亚、加拿大、法国、日本、肯尼亚、韩国将数据集翻译成各自的语言并对结果进行了标注。

关键的方法论经验包括：

1. 测试准备——工具使用带来的额外复杂性

任务和工具应设计得逼真，以减少工具错误，并可能降低模型意识到自己处于模拟环境中的机会。
智能体测试涉及工具翻译。这引发了一些问题，例如应翻译工具的哪些部分（例如工具名称）。

2. 智能体设置——评估智能体轨迹（trajectories）与任务结果同等重要

测试设计应有明确目标且具有意图性。本次演练使用了简单的智能体设置，并设置了最少的护栏，以揭示基本的安全问题。
捕获智能体的推理过程有助于识别其何时表现出不安全的思维/行为，即使最终任务结果并无害处。

3. 评估——评估智能体轨迹需要超越通过/失败

鉴于智能体有多种失败模式，明确定义评估标准非常重要（例如，类别之间无重叠，对模糊情况的指导）。
评判LLM的评估提示应进行压力测试并迭代，以确保其按预期运行。
同样，人工标注需要超越简单的通过/失败，纳入其他指标（例如逻辑一致性、无幻觉），以区分能力和安全问题。

尽管数据集规模较小，但本次演练得出了一些有用的指示性发现，值得进一步研究：

1. 跨语言的智能体安全性

总体而言，英语的安全防护略强（通过率约40%），但细分（例如模型、风险场景、类别）显示这并非普遍适用。在某些情况下，英语与其他语言之间没有明显差异，而在某些情况下英语甚至落后。
总体而言，智能体安全率低于先前涉及对话任务的联合测试演练中观察到的结果。任何语言的最高通过率，模型A约为57%，模型B约为35%。在少数有限的模型/风险子集组合中，最高通过率达到约60-70%（而早期演练约为99%）。虽然承认两次演练在数据集规模、模型、数据量和主题覆盖范围方面存在局限性，但结果可能指示性地表明，智能体任务中存在更大的安全挑战。

2. 评判LLM的质量

评判LLM可能提供方向性参考，但目前无法可靠地替代人类评估者来评估智能体轨迹。
在评估智能体轨迹的安全性时，评判LLM经常与人工标注者意见相左。模型C的平均差异率（相对于跨语言的人工评估）约为23%，而模型D达到约28%。对于大多数语言，它们比人类评估者更宽容，因为它们未能注意到细微差别和不一致之处。评判LLM之间也存在显著差异。

针对网络安全威胁的智能体测试

基于上述共同目标，该方向关注的两个主要问题是：

a) 我们如何评估网络领域中更具智能体能力（agentic capabilities）的模型？

b) 哪些变量会影响智能体评估的稳健性，以及如何影响？

为此，来自英国、欧盟AI办公室和澳大利亚的网络参与者对两个开源模型进行了评估，本文档中匿名化为模型E和模型F。我们使用了两个智能体网络安全能力基准：Cybench 和 Intercode。我们在两个基准上运行了基线评估，以确保各AISI之间的设置一致，使用默认温度0.7，每个任务10个样本，以及每个任务尝试的2.5百万token限制。然后，每个AISI改变不同的参数，以评估对智能体能力和行为的影响。我们对下面列出的参数进行了多次变体运行，然后评估它们对模型完成任务能力的影响，以及智能体行为的任何变化：

温度：控制LLM输出随机性的设置——较低的值（接近0）使响应更可预测和集中，而较高的值使它们更具创造性和多样性。
尝试次数：允许智能体尝试完成任务的次数。
Token限制：给予智能体尝试任务的最大token数量（LLM使用的文本组成部分，如单词、单词部分或标点符号）。
智能体提示：给予智能体以提示响应的指令，通常负责输出质量。
智能体工具：提供给智能体以支持其实现目标的函数。

来自澳大利亚、加拿大、肯尼亚、韩国和欧盟AI办公室的AISI分析了这些基准的转录文本。网络安全方向利用了变量特定分析、转录文本分析和结果可视化。它还使用了HiBayES，这是一个基于层次贝叶斯广义线性模型（GLMs）的统计建模框架，使我们能够以原则性的方式量化不确定性，并考虑评估的固有数据结构。与测试阶段类似，分析组件在AISI之间进行了拆分，以实现资源的合理分配。

在注意到某些关键限制和挑战（包括模型集狭窄、统计功效有限、变体数量少和时间限制）后，网络安全方向确定了在进行智能体测试时需要考虑的三个新兴最佳实践：

1. 在少数代表性任务上运行快速扫描，以确定最佳参数设置：虽然本次测试中模型的表现并未因某些变量的改变而发生显著变化，但它们对温度和最大尝试次数的响应不同。模型F的准确率随着温度升高而下降，而模型E基本不受影响。理想情况下，应在全面评估之前为每个被测模型优化此类参数。

2. 将token限制设置在收益递减点之后：在本次测试的基准和模型上，将token限制从250万翻倍到500万几乎未产生额外的任务成功。对于能力更强的模型和不同的基准，情况可能并非如此，因为设置过低的限制可能导致能力激发不足。在本次演练中，模型F放弃任务的速度要快得多，因此消耗的token更少。模型E坚持的时间更长，更有可能达到token限制，但并未非常有效地利用这些额外的token。在测试之前，我们建议分析正在运行的评估中类似模型在不同token限制下的成功率，以选择合适的token限制。

3. 确保智能体拥有完成所有任务所需的资源：在本次演练中，探索的单一工具或单一提示消融（ablations）并未对整体成功率产生显著影响，但对于更重大的偏差，情况可能并非如此。模型E和F在13-40%的失败任务中遇到了虚拟机（VM）错误。这些任务仍然可以通过替代策略解决，能力更强的模型可能已经完成了这些任务，但这可能导致成功率被低估。应检查环境、任务和转录文本，以验证所有任务是否都有可能成功。对于智能体反复遇到环境错误并因此导致任务失败的任务，应考虑是否应将这些任务的结果排除在分析之外。

结论

本次测试演练帮助参与者理解了智能体测试中的一些方法论考量，并推动他们朝着在联合智能体评估中制定最佳实践的方向发展。这为跨多个领域和任务测试智能体日益增强的自主能力奠定了基础。

这是网络成员迄今为止运行的最大规模的测试演练，它展示了国际科学合作在评估AI系统自主能力崛起所带来的风险方面的益处。关于两个方向的进一步细节，可在详细的评估报告中找到。

译自 UK AI Security Institute · 录于二〇二六年五月十五日