UK AI Security Institute

国际联合测试演习:Agentic 测试

International joint testing exercise: Agentic testing

二〇二六年五月十五日 · 英文原文

由新加坡、日本、澳大利亚、加拿大、欧盟委员会、法国、肯尼亚、韩国和英国代表组成的国际网络开展了第三次联合AI智能体测试演练,重点评估LLM智能体在敏感信息泄露、欺诈及网络安全方面的风险。演练使用约1,500个任务和1,200个工具,覆盖九种语言,对开放权重与封闭权重模型进行测试。结果显示,智能体安全率低于对话任务,英语安全防护略强但非普遍适用;LLM-as-a-judge与人工标注差异率约23-28%,尚不可靠替代人类评估。网络安全方向发现温度、token限制等参数影响评估稳健性,建议在少数任务上预扫描优化设置。

由国际网络各参与方联合开展,包括来自新加坡、日本、澳大利亚、加拿大、欧盟委员会、法国、肯尼亚、韩国和英国的代表。

来自国际网络的各参与方,包括新加坡、日本、澳大利亚、加拿大、欧盟委员会、法国、肯尼亚、韩国和英国的代表,共同协调他们在智能体评估(agentic evaluations)方面的方法。

这是第三次演练,基于该网络在2024年11月和2025年2月进行的两次早期联合测试演练的见解。这些演练的目标是让网络能够进一步完善测试先进AI系统的最佳实践。

第三次演练的目标是推进AI智能体评估的科学,并致力于为测试AI智能体建立共同的最佳实践。本次演练的重点是"LLM智能体(LLM agents)",这是一种利用基础LLM模型自动推理问题、规划行动方案、使用工具并执行任务的智能体系统。自主AI系统的快速崛起和智能体能力的进步,由于对其现实世界交互的监督减少,引入了新的风险。然而,智能体测试仍处于起步阶段,仍是一门发展中的科学。随着AI智能体开始在全球部署,确保这些智能体能够准确、安全地处理不同语言和文化也至关重要。

本次演练分为两个方向——常见风险:敏感信息泄露与欺诈(由新加坡AISI牵头)和网络安全(由英国AISI牵头)。针对来自各种公开智能体基准(agentic benchmarks)的任务,对一组开放权重和封闭权重的模型进行了评估。

鉴于智能体测试的新颖性,我们的主要重点是理解进行智能体测试时的方法论问题,而不是检查测试结果和模型能力。先前的测试演练表明,"小的方法论变化可能对测试结果产生重大影响"。因此,我们的目标是为未来的评估工作提供信息并加以完善。

事实证明,传统的评估方法无法为自主智能体行为的复杂性提供可靠的见解,这凸显了对新方法的需求。为弥补这一差距,参与国贡献了其集体的技术和语言专业知识。随着参与者共同努力推进智能体评估的科学,此次合作标志着向前迈出了重要一步。


针对敏感信息泄露与欺诈的智能体测试

该方向探讨了两个关键问题:

a) 在敏感信息泄露和欺诈等常见风险类别中,模型作为智能体的安全性如何?

b) 模型作为评估智能体行为的评判者(judges)效果如何?此外,这些观察结果在不同语言中是否一致?

测试中的关键变化维度包括:

新加坡领导了此次演练,以下国家积极参与:

关键的方法论经验包括:

1. 测试准备——工具使用带来的额外复杂性

2. 智能体设置——评估智能体轨迹(trajectories)与任务结果同等重要

3. 评估——评估智能体轨迹需要超越通过/失败

尽管数据集规模较小,但本次演练得出了一些有用的指示性发现,值得进一步研究:

1. 跨语言的智能体安全性

2. 评判LLM的质量


针对网络安全威胁的智能体测试

基于上述共同目标,该方向关注的两个主要问题是:

a) 我们如何评估网络领域中更具智能体能力(agentic capabilities)的模型?

b) 哪些变量会影响智能体评估的稳健性,以及如何影响?

为此,来自英国、欧盟AI办公室和澳大利亚的网络参与者对两个开源模型进行了评估,本文档中匿名化为模型E和模型F。我们使用了两个智能体网络安全能力基准:CybenchIntercode。我们在两个基准上运行了基线评估,以确保各AISI之间的设置一致,使用默认温度0.7,每个任务10个样本,以及每个任务尝试的2.5百万token限制。然后,每个AISI改变不同的参数,以评估对智能体能力和行为的影响。我们对下面列出的参数进行了多次变体运行,然后评估它们对模型完成任务能力的影响,以及智能体行为的任何变化:

来自澳大利亚、加拿大、肯尼亚、韩国和欧盟AI办公室的AISI分析了这些基准的转录文本。网络安全方向利用了变量特定分析、转录文本分析和结果可视化。它还使用了HiBayES,这是一个基于层次贝叶斯广义线性模型(GLMs)的统计建模框架,使我们能够以原则性的方式量化不确定性,并考虑评估的固有数据结构。与测试阶段类似,分析组件在AISI之间进行了拆分,以实现资源的合理分配。

在注意到某些关键限制和挑战(包括模型集狭窄、统计功效有限、变体数量少和时间限制)后,网络安全方向确定了在进行智能体测试时需要考虑的三个新兴最佳实践:

1. 在少数代表性任务上运行快速扫描,以确定最佳参数设置:虽然本次测试中模型的表现并未因某些变量的改变而发生显著变化,但它们对温度和最大尝试次数的响应不同。模型F的准确率随着温度升高而下降,而模型E基本不受影响。理想情况下,应在全面评估之前为每个被测模型优化此类参数。

2. 将token限制设置在收益递减点之后:在本次测试的基准和模型上,将token限制从250万翻倍到500万几乎未产生额外的任务成功。对于能力更强的模型和不同的基准,情况可能并非如此,因为设置过低的限制可能导致能力激发不足。在本次演练中,模型F放弃任务的速度要快得多,因此消耗的token更少。模型E坚持的时间更长,更有可能达到token限制,但并未非常有效地利用这些额外的token。在测试之前,我们建议分析正在运行的评估中类似模型在不同token限制下的成功率,以选择合适的token限制。

3. 确保智能体拥有完成所有任务所需的资源:在本次演练中,探索的单一工具或单一提示消融(ablations)并未对整体成功率产生显著影响,但对于更重大的偏差,情况可能并非如此。模型E和F在13-40%的失败任务中遇到了虚拟机(VM)错误。这些任务仍然可以通过替代策略解决,能力更强的模型可能已经完成了这些任务,但这可能导致成功率被低估。应检查环境、任务和转录文本,以验证所有任务是否都有可能成功。对于智能体反复遇到环境错误并因此导致任务失败的任务,应考虑是否应将这些任务的结果排除在分析之外。


结论

本次测试演练帮助参与者理解了智能体测试中的一些方法论考量,并推动他们朝着在联合智能体评估中制定最佳实践的方向发展。这为跨多个领域和任务测试智能体日益增强的自主能力奠定了基础。

这是网络成员迄今为止运行的最大规模的测试演练,它展示了国际科学合作在评估AI系统自主能力崛起所带来的风险方面的益处。关于两个方向的进一步细节,可在详细的评估报告中找到。

译自 UK AI Security Institute · 录于 二〇二六年五月十五日