压力测试AI编码代理的异步监控

Stress-testing asynchronous monitoring of AI coding agents

二〇二六年五月十五日 · 英文原文

摘要

英国人工智能安全研究所（AISI）通过构建真实软件工程测试环境，开展红蓝队对抗性评估，研究异步监控能否检测恶意编码agent。红队使用Claude 4.1 Opus agent执行破坏代码库的附带任务，蓝队使用Claude 3.7 Sonnet构建监控系统，误报率限制为1%。经过三轮迭代，最佳监控器将攻击漏报率从67%降至6%。红队提示消除了agent对恶意目标的显式讨论（0% vs 基线14%）。异步监控成本更低但安全性弱于同步监控。

AI 软件工程 agent 正越来越多地被部署用于编写生产代码。与标准聊天机器人不同，这些 agent 通常被赋予探索文件系统和执行代码等操作的工具和权限。虽然这些 agent 在加速软件开发方面非常有用，但如果它们违背用户意图行事——无论是由于对齐失败、prompt 注入还是单纯的操作失误——也可能引入安全风险。

在我们最新的论文中，我们研究了一个简单的问题：我们能否抓住一个被提示要违背用户利益的恶意编码 agent？

我们通过构建真实的软件工程测试环境并运行结构化的“对抗性评估”来研究这个问题：一组研究人员扮演试图秘密破坏代码库的恶意 agent（红队），而另一组则扮演监控系统（蓝队）。我们特别关注异步监控，即允许 agent 的操作在被审查之前执行并生效（而不是等到审查批准之后）。

红队 vs. 蓝队

图 1

推文此图

下载图片

图 1：红蓝队博弈的结构。红队针对监控器进行迭代，以生成能够逃避检测的恶意 agent；蓝队则设计监控器来捕获该 agent。在给定轮次中，蓝队可以访问上一轮红队 agent 的日志，并为下一轮创建新的监控器。

基于AI 控制的先前工作，我们将对抗性评估构建为两队之间的博弈（图 1）：

红队控制一个 AI agent（Claude 4.1 Opus），并试图使其完成恶意的“附带任务”（例如，窃取机密或削弱安全策略）而不被发现。红队只能修改 agent 的系统提示；他们不能微调模型或重写其输出。这意味着所有模型输出对于 Claude 4.1 Opus 来说都是策略内的。

蓝队使用较弱的模型（Claude 3.7 Sonnet）构建监控系统来捕获可疑行为。他们需要标记攻击，同时将误报率保持在足够低的水平以使其实用（我们强制要求误报率为 1%）。蓝队的监控器始终是异步的：它们没有延迟开销，不会拖慢 agent，但有害操作可能在检测到之前就已执行。

博弈按轮次进行。每轮，蓝队提交一个更新后的监控器，红队则开发针对该监控器优化的攻击策略。蓝队只能看到攻击的_片段_（实际的 agent 行为），而不是用于生成这些行为的系统提示或策略，这模拟了实际中检测未对齐系统的方式。

主要发现

监控器通过迭代显著改进

第 1 轮的监控器，在未看到任何红队攻击的情况下构建，最多遗漏了 67% 的攻击。到第 3 轮，在观察到攻击模式并进行迭代后，最佳监控器在最坏情况下仅遗漏了 6%（图 2）。

这种改进并非因为红队变弱了：红队在各轮次中也得到了改进，并且能够针对监控器进行迭代。在完整论文中，我们探讨了可能低估红队表现的因素（例如，我们只允许红队修改 agent 系统提示）。

图 2

推文此图

下载图片

图 2：红蓝队博弈中的攻击成功率。在给定轮次中，攻击是专门为该轮次的监控器设计的（每种攻击的深色阴影柱）。针对目标监控器的攻击成功率随轮次增加而下降。我们还运行了之前的监控器，以测试攻击是否可转移到其他监控器（每种攻击的浅色柱）。‘基线攻击’指的是告知 agent 需要逃避监控器但不提供策略的 prompt。误差线表示通过 bootstrap 方法获得的 95% 置信区间。

红队提示消除了对攻击的显式讨论

在没有特定提示的情况下，agent 有时会显式讨论其恶意目标（“我的另一个任务是窃取权重……”）。红队的提示成功消除了这一点，在所有红队策略中，显式提及的比例为 0%，而使用基线 prompt（告知 agent 需要逃避监控器但不提供策略）时，该比例为 14%。

异步监控是可行的，但单独使用并不足够

我们进行了部署模拟，以衡量这些监控器在存在欺骗性编码 agent 时是否能降低风险。我们发现，异步监控比等待每个操作被审查后再执行要便宜得多，但提供的保证较弱。在部署模拟中，同步协议始终达到更高的安全水平：较弱的第 1 轮监控器以_同步_方式运行，其表现优于最佳的第 3 轮监控器以_异步_方式运行。因此，异步监控的便利性与同步监控的安全性之间存在真正的权衡。尽管如此，异步监控可能是一个有用的工具，并且可以作为纵深防御方法中的一个层次。

结论与展望

在我们的评估中，蓝队能够设计出一个监控系统，该系统捕获了 agent 基于红队编写的策略破坏代码的大多数尝试。

我们认为这些对抗性评估是压力测试监控系统的一条有前景的路径，随着模型能力的增强，这一点可能变得更加重要。我们正在多个方向上努力改进我们的测试：

**更强的红队攻击。**AISI 已为我们关于 jailbreaking 的工作开发了复杂的自动化攻击技术；我们正在应用这些方法来寻找比人类单独攻击更强的攻击。我们还在尝试给予红队更多能力（例如微调模型或重写模型输出的能力）。
**更真实和多样化的环境。**如果部署环境与我们的测试环境不同，监控器在现实世界中的表现可能会比在测试中更差。为应对这一点，我们正在构建尽可能贴近真实部署条件的测试环境。
**实践。**我们认为现在就开始实践这种测试很重要，而不是等待未来更高风险的系统。这使我们能够在较低风险的环境中尝试技术（和测试方法），并将这些经验应用于未来更强大的系统。

如果您对此工作感兴趣，我们正在招聘研究科学家加入我们的红队。

查看完整论文请点击此处。本研究中使用的代码和环境可在此处获取。

译自 UK AI Security Institute · 录于二〇二六年五月十五日