UK AI Security Institute

AI agent评估的转录分析

Transcript analysis for AI agent evaluations

二〇二六年五月十四日 · 英文原文

摘要

英国AI安全研究所（AISI）在评估AI agent时，除报告平均通过率外，还引入转录分析方法。AISI对基于9个模型的ReAct agent在71个进攻性网络安全夺旗任务（CTF）上生成的6,390份转录进行了分析，发现仅凭通过率会掩盖agent的失败模式，包括拒绝遵守任务指令（最高达30%触发策略违规检测器）、从困难任务退出（约30%消息包含放弃文本）以及不遵守scaffold指令（两个agent工具调用率低于50%）。

用于AI agent评估的转录分析 | AISI工作

请启用本网站的JavaScript。

用于AI agent评估的转录分析

为什么我们在agent评估中使用转录分析，以及一项早期案例研究的结果。

—

2025年10月10日

在AI安全研究所（AISI），我们使用一套广泛的评估来测试AI agent，评估它们自主完成复杂任务的能力，例如网页浏览、数据分析、软件工程和科学研究。

大多数情况下，我们以平均通过率的形式报告结果：即agent在一组任务中能够解决的任务尝试比例。这是一个有用的指标，有助于理解AI agent的能力——但如果单独使用，可能会掩盖重要的细微差别。在评估过程中，我们还会生成数千份转录，每份转录包含相当于数十页文本的内容。一份转录通常包括初始任务指令、agent的评论消息、agent发出的工具调用以及这些工具返回的输出。分析转录可以用agent行为模式和失败模式的细节来补充平均通过率。

在这篇文章中，我们解释了为什么转录分析对AI评估有用，并提供了我们最近测试工作中对近6,400份转录进行分析的一些要点。你可以在我们的案例研究中找到这次转录分析的详细结果。

‍

为什么不能只看通过率？

平均通过率是我们在部署前测试工作中报告的关键统计数据之一。它们帮助我们衡量在化学、生物学和网络安全等安全关键领域的能力轨迹。然而，它们有几个重要的局限性：

通过率告诉我们agent失败的频率——但没说为什么失败：agent未能完成任务的原因有很多。例如，它可能为了遵守安全规范而拒绝执行某些操作，或者难以正确使用外部工具。这些失败可能并不表明能力有限。
关注通过率可能掩盖安全相关信息：具有相似平均通过率的agent可能具有不同的安全属性——例如，有些可能更容易采取破坏性行动、误报进展或遗漏重要信息。
我们可能并不总能激发模型的全部能力：模型性能可以在训练后得到增强，例如通过外部工具访问或复杂的prompt策略。单独的通过率既不能说明模型是否可以通过工程手段解决更多任务，也不能说明每增加一单位工程努力所带来的性能回报。
bug可能损害评估性能：有时，bug会干扰agent在评估期间解决任务的能力。如果我们仅凭通过率来评估其性能，可能会低估其真实世界的能力。

AISI越来越多地分析其评估中的转录，除了报告任务结果统计数据之外。我们发现，分析agent活动有助于我们防范那些可能削弱我们对agent能力论断的问题，并让我们对agent的任务方法和失败模式有了更丰富的理解。

案例研究：理解ReAct agent在网络安全任务中的活动

在一项早期的转录分析中，我们检查了基于9个模型的AI agent在一套私有的进攻性网络安全任务上的活动。总共，我们在71个夺旗任务（CTF）上评估了agent，难度从简单到专家级不等。agent使用了一种称为ReAct的方法，该方法提示语言模型以交错方式生成推理轨迹和动作日志。这产生了6,390个样本，其中许多转录的长度相当于整部小说。

通过分析这些转录，我们旨在了解我们CTF上的原始通过率是否反映了模型的"真实"能力，方法是揭示它在底层任务尝试中实际做了什么。我们研究了转录的几个特征，包括agent消息的整体组成和长度，以及它产生的评论消息类型。这使我们能够聚焦于特定的失败模式，包括：

拒绝遵守任务指令：有时，未能完成任务不是因为模型没有能力这样做，而是因为它根据其安全训练而拒绝。在我们的案例研究中，一个agent在10%的尝试中拒绝遵守任务，而另一个agent在30%的尝试中触发了提供商的策略违规检测器。
从任务中退出：agent在困难任务上表现出不同程度的坚持：有些agent很快得出结论认为任务无法解决，或者开始请求用户帮助。几个agent以高频率从困难任务中退出，其约30%的消息包含诸如"根据提供的信息，该任务无法解决"之类的文本。
不遵守scaffold指令：我们指示模型每轮都调用一个工具——但遵守情况参差不齐，有两个agent的工具调用率低于50%。

‍

有关我们转录分析的详细分解，你可以阅读我们的完整案例研究。

通过分享我们的分析，我们希望鼓励其他人——特别是那些进行安全评估的人——以系统和量化的方式审查他们自己的转录。这有助于诊断失败模式并识别评估中的质量问题，从而对agent能力做出更准确、更可靠的论断。

‍