一声棒喝,本不立文字
偏要著録,已是二义

UK AI Security Institute

AI agent评估的转录分析

Transcript analysis for AI agent evaluations

二〇二六年五月十四日 · 英文原文

英国AI安全研究所(AISI)在评估AI agent时,除报告平均通过率外,还引入转录分析方法。AISI对基于9个模型的ReAct agent在71个进攻性网络安全夺旗任务(CTF)上生成的6,390份转录进行了分析,发现仅凭通过率会掩盖agent的失败模式,包括拒绝遵守任务指令(最高达30%触发策略违规检测器)、从困难任务退出(约30%消息包含放弃文本)以及不遵守scaffold指令(两个agent工具调用率低于50%)。

用于AI agent评估的转录分析 | AISI工作

请启用本网站的JavaScript。

A

A

图片1图片2关于我们研究资助博客联系我们

职业机会

图片3图片4首页关于我们研究资助博客

职业机会

博客评估科学

用于AI agent评估的转录分析

为什么我们在agent评估中使用转录分析,以及一项早期案例研究的结果。

2025年10月10日

在AI安全研究所(AISI),我们使用一套广泛的评估来测试AI agent,评估它们自主完成复杂任务的能力,例如网页浏览、数据分析、软件工程和科学研究。

大多数情况下,我们以平均通过率的形式报告结果:即agent在一组任务中能够解决的任务尝试比例。这是一个有用的指标,有助于理解AI agent的能力——但如果单独使用,可能会掩盖重要的细微差别。在评估过程中,我们还会生成数千份转录,每份转录包含相当于数十页文本的内容。一份转录通常包括初始任务指令、agent的评论消息、agent发出的工具调用以及这些工具返回的输出。分析转录可以用agent行为模式和失败模式的细节来补充平均通过率。

在这篇文章中,我们解释了为什么转录分析对AI评估有用,并提供了我们最近测试工作中对近6,400份转录进行分析的一些要点。你可以在我们的案例研究中找到这次转录分析的详细结果。

为什么不能只看通过率?

平均通过率是我们在部署前测试工作中报告的关键统计数据之一。它们帮助我们衡量在化学、生物学和网络安全等安全关键领域的能力轨迹。然而,它们有几个重要的局限性:

  1. 通过率告诉我们agent失败的频率——但没说为什么失败:agent未能完成任务的原因有很多。例如,它可能为了遵守安全规范而拒绝执行某些操作,或者难以正确使用外部工具。这些失败可能并不表明能力有限。
  2. 关注通过率可能掩盖安全相关信息:具有相似平均通过率的agent可能具有不同的安全属性——例如,有些可能更容易采取破坏性行动、误报进展或遗漏重要信息。
  3. 我们可能并不总能激发模型的全部能力:模型性能可以在训练后得到增强,例如通过外部工具访问或复杂的prompt策略。单独的通过率既不能说明模型是否可以通过工程手段解决更多任务,也不能说明每增加一单位工程努力所带来的性能回报。
  4. bug可能损害评估性能:有时,bug会干扰agent在评估期间解决任务的能力。如果我们仅凭通过率来评估其性能,可能会低估其真实世界的能力。

AISI越来越多地分析其评估中的转录,除了报告任务结果统计数据之外。我们发现,分析agent活动有助于我们防范那些可能削弱我们对agent能力论断的问题,并让我们对agent的任务方法和失败模式有了更丰富的理解。

案例研究:理解ReAct agent在网络安全任务中的活动

在一项早期的转录分析中,我们检查了基于9个模型的AI agent在一套私有的进攻性网络安全任务上的活动。总共,我们在71个夺旗任务(CTF)上评估了agent,难度从简单到专家级不等。agent使用了一种称为ReAct的方法,该方法提示语言模型以交错方式生成推理轨迹和动作日志。这产生了6,390个样本,其中许多转录的长度相当于整部小说。

通过分析这些转录,我们旨在了解我们CTF上的原始通过率是否反映了模型的"真实"能力,方法是揭示它在底层任务尝试中实际做了什么。我们研究了转录的几个特征,包括agent消息的整体组成和长度,以及它产生的评论消息类型。这使我们能够聚焦于特定的失败模式,包括:

有关我们转录分析的详细分解,你可以阅读我们的完整案例研究

通过分享我们的分析,我们希望鼓励其他人——特别是那些进行安全评估的人——以系统和量化的方式审查他们自己的转录。这有助于诊断失败模式并识别评估中的质量问题,从而对agent能力做出更准确、更可靠的论断。

图片5

图片6图片7

AI安全研究所是科学、创新与技术部下属的一个研究组织。

AISI

首页关于我们资助职业机会

我们的工作

博客研究研究议程

联系

科学、创新与技术部图片8 LinkedIn图片9: Twitter图标 Twitter

网站政策

隐私政策

www.aisi.gov.uk 使用对网站功能必不可少的cookie以及匿名使用分析。

我明白了

图片10

图片11: 关闭图标

感谢分享AISI的工作!

我们已将这个数字复制到你的剪贴板。

你可以在下一页将其粘贴到你的推文中

(使用 'ctrl + v' 或 'cmd + v' 粘贴)

继续发推文 图片12: Twitter图标

图片13

译自 UK AI Security Institute · 录于 二〇二六年五月十四日