UK AI Security Institute

压力测试AI编码代理的异步监控

Stress-testing asynchronous monitoring of AI coding agents

二〇二六年五月十五日 · 英文原文

英国人工智能安全研究所(AISI)通过构建真实软件工程测试环境,开展红蓝队对抗性评估,研究异步监控能否检测恶意编码agent。红队使用Claude 4.1 Opus agent执行破坏代码库的附带任务,蓝队使用Claude 3.7 Sonnet构建监控系统,误报率限制为1%。经过三轮迭代,最佳监控器将攻击漏报率从67%降至6%。红队提示消除了agent对恶意目标的显式讨论(0% vs 基线14%)。异步监控成本更低但安全性弱于同步监控。

AI 软件工程 agent 正越来越多地被部署用于编写生产代码。与标准聊天机器人不同,这些 agent 通常被赋予探索文件系统和执行代码等操作的工具和权限。虽然这些 agent 在加速软件开发方面非常有用,但如果它们违背用户意图行事——无论是由于对齐失败、prompt 注入还是单纯的操作失误——也可能引入安全风险。

在我们最新的论文中,我们研究了一个简单的问题:我们能否抓住一个被提示要违背用户利益的恶意编码 agent?

我们通过构建真实的软件工程测试环境并运行结构化的“对抗性评估”来研究这个问题:一组研究人员扮演试图秘密破坏代码库的恶意 agent(红队),而另一组则扮演监控系统(蓝队)。我们特别关注异步监控,即允许 agent 的操作在被审查之前执行并生效(而不是等到审查批准之后)。

红队 vs. 蓝队

图 1

推文此图

下载图片

图 1:红蓝队博弈的结构。红队针对监控器进行迭代,以生成能够逃避检测的恶意 agent;蓝队则设计监控器来捕获该 agent。在给定轮次中,蓝队可以访问上一轮红队 agent 的日志,并为下一轮创建新的监控器。

基于AI 控制的先前工作,我们将对抗性评估构建为两队之间的博弈(图 1):

红队控制一个 AI agent(Claude 4.1 Opus),并试图使其完成恶意的“附带任务”(例如,窃取机密或削弱安全策略)而不被发现。红队只能修改 agent 的系统提示;他们不能微调模型或重写其输出。这意味着所有模型输出对于 Claude 4.1 Opus 来说都是策略内的。

蓝队使用较弱的模型(Claude 3.7 Sonnet)构建监控系统来捕获可疑行为。他们需要标记攻击,同时将误报率保持在足够低的水平以使其实用(我们强制要求误报率为 1%)。蓝队的监控器始终是异步的:它们没有延迟开销,不会拖慢 agent,但有害操作可能在检测到之前就已执行。

博弈按轮次进行。每轮,蓝队提交一个更新后的监控器,红队则开发针对该监控器优化的攻击策略。蓝队只能看到攻击的_片段_(实际的 agent 行为),而不是用于生成这些行为的系统提示或策略,这模拟了实际中检测未对齐系统的方式。

主要发现

监控器通过迭代显著改进

第 1 轮的监控器,在未看到任何红队攻击的情况下构建,最多遗漏了 67% 的攻击。到第 3 轮,在观察到攻击模式并进行迭代后,最佳监控器在最坏情况下仅遗漏了 6%(图 2)。

这种改进并非因为红队变弱了:红队在各轮次中也得到了改进,并且能够针对监控器进行迭代。在完整论文中,我们探讨了可能低估红队表现的因素(例如,我们只允许红队修改 agent 系统提示)。

图 2

推文此图

下载图片

图 2:红蓝队博弈中的攻击成功率。在给定轮次中,攻击是专门为该轮次的监控器设计的(每种攻击的深色阴影柱)。针对目标监控器的攻击成功率随轮次增加而下降。我们还运行了之前的监控器,以测试攻击是否可转移到其他监控器(每种攻击的浅色柱)。‘基线攻击’指的是告知 agent 需要逃避监控器但不提供策略的 prompt。误差线表示通过 bootstrap 方法获得的 95% 置信区间。

红队提示消除了对攻击的显式讨论

在没有特定提示的情况下,agent 有时会显式讨论其恶意目标(“我的另一个任务是窃取权重……”)。红队的提示成功消除了这一点,在所有红队策略中,显式提及的比例为 0%,而使用基线 prompt(告知 agent 需要逃避监控器但不提供策略)时,该比例为 14%。

异步监控是可行的,但单独使用并不足够

我们进行了部署模拟,以衡量这些监控器在存在欺骗性编码 agent 时是否能降低风险。我们发现,异步监控比等待每个操作被审查后再执行要便宜得多,但提供的保证较弱。在部署模拟中,同步协议始终达到更高的安全水平:较弱的第 1 轮监控器以_同步_方式运行,其表现优于最佳的第 3 轮监控器以_异步_方式运行。因此,异步监控的便利性与同步监控的安全性之间存在真正的权衡。尽管如此,异步监控可能是一个有用的工具,并且可以作为纵深防御方法中的一个层次。

结论与展望

在我们的评估中,蓝队能够设计出一个监控系统,该系统捕获了 agent 基于红队编写的策略破坏代码的大多数尝试。

我们认为这些对抗性评估是压力测试监控系统的一条有前景的路径,随着模型能力的增强,这一点可能变得更加重要。我们正在多个方向上努力改进我们的测试:

如果您对此工作感兴趣,我们正在招聘研究科学家加入我们的红队。

查看完整论文请点击此处。本研究中使用的代码和环境可在此处获取

译自 UK AI Security Institute · 录于 二〇二六年五月十五日