压力测试AI编码代理的异步监控
Stress-testing asynchronous monitoring of AI coding agents
英国人工智能安全研究所(AISI)通过构建真实软件工程测试环境,开展红蓝队对抗性评估,研究异步监控能否检测恶意编码agent。红队使用Claude 4.1 Opus agent执行破坏代码库的附带任务,蓝队使用Claude 3.7 Sonnet构建监控系统,误报率限制为1%。经过三轮迭代,最佳监控器将攻击漏报率从67%降至6%。红队提示消除了agent对恶意目标的显式讨论(0% vs 基线14%)。异步监控成本更低但安全性弱于同步监控。
AI 软件工程 agent 正越来越多地被部署用于编写生产代码。与标准聊天机器人不同,这些 agent 通常被赋予探索文件系统和执行代码等操作的工具和权限。虽然这些 agent 在加速软件开发方面非常有用,但如果它们违背用户意图行事——无论是由于对齐失败、prompt 注入还是单纯的操作失误——也可能引入安全风险。
在我们最新的论文中,我们研究了一个简单的问题:我们能否抓住一个被提示要违背用户利益的恶意编码 agent?
我们通过构建真实的软件工程测试环境并运行结构化的“对抗性评估”来研究这个问题:一组研究人员扮演试图秘密破坏代码库的恶意 agent(红队),而另一组则扮演监控系统(蓝队)。我们特别关注异步监控,即允许 agent 的操作在被审查之前执行并生效(而不是等到审查批准之后)。
红队 vs. 蓝队

推文此图
下载图片
图 1:红蓝队博弈的结构。红队针对监控器进行迭代,以生成能够逃避检测的恶意 agent;蓝队则设计监控器来捕获该 agent。在给定轮次中,蓝队可以访问上一轮红队 agent 的日志,并为下一轮创建新的监控器。
基于AI 控制的先前工作,我们将对抗性评估构建为两队之间的博弈(图 1):
红队控制一个 AI agent(Claude 4.1 Opus),并试图使其完成恶意的“附带任务”(例如,窃取机密或削弱安全策略)而不被发现。红队只能修改 agent 的系统提示;他们不能微调模型或重写其输出。这意味着所有模型输出对于 Claude 4.1 Opus 来说都是策略内的。
蓝队使用较弱的模型(Claude 3.7 Sonnet)构建监控系统来捕获可疑行为。他们需要标记攻击,同时将误报率保持在足够低的水平以使其实用(我们强制要求误报率为 1%)。蓝队的监控器始终是异步的:它们没有延迟开销,不会拖慢 agent,但有害操作可能在检测到之前就已执行。
博弈按轮次进行。每轮,蓝队提交一个更新后的监控器,红队则开发针对该监控器优化的攻击策略。蓝队只能看到攻击的_片段_(实际的 agent 行为),而不是用于生成这些行为的系统提示或策略,这模拟了实际中检测未对齐系统的方式。
主要发现
监控器通过迭代显著改进
第 1 轮的监控器,在未看到任何红队攻击的情况下构建,最多遗漏了 67% 的攻击。到第 3 轮,在观察到攻击模式并进行迭代后,最佳监控器在最坏情况下仅遗漏了 6%(图 2)。
这种改进并非因为红队变弱了:红队在各轮次中也得到了改进,并且能够针对监控器进行迭代。在完整论文中,我们探讨了可能低估红队表现的因素(例如,我们只允许红队修改 agent 系统提示)。

推文此图
下载图片
图 2:红蓝队博弈中的攻击成功率。在给定轮次中,攻击是专门为该轮次的监控器设计的(每种攻击的深色阴影柱)。针对目标监控器的攻击成功率随轮次增加而下降。我们还运行了之前的监控器,以测试攻击是否可转移到其他监控器(每种攻击的浅色柱)。‘基线攻击’指的是告知 agent 需要逃避监控器但不提供策略的 prompt。误差线表示通过 bootstrap 方法获得的 95% 置信区间。
红队提示消除了对攻击的显式讨论
在没有特定提示的情况下,agent 有时会显式讨论其恶意目标(“我的另一个任务是窃取权重……”)。红队的提示成功消除了这一点,在所有红队策略中,显式提及的比例为 0%,而使用基线 prompt(告知 agent 需要逃避监控器但不提供策略)时,该比例为 14%。
异步监控是可行的,但单独使用并不足够
我们进行了部署模拟,以衡量这些监控器在存在欺骗性编码 agent 时是否能降低风险。我们发现,异步监控比等待每个操作被审查后再执行要便宜得多,但提供的保证较弱。在部署模拟中,同步协议始终达到更高的安全水平:较弱的第 1 轮监控器以_同步_方式运行,其表现优于最佳的第 3 轮监控器以_异步_方式运行。因此,异步监控的便利性与同步监控的安全性之间存在真正的权衡。尽管如此,异步监控可能是一个有用的工具,并且可以作为纵深防御方法中的一个层次。
结论与展望
在我们的评估中,蓝队能够设计出一个监控系统,该系统捕获了 agent 基于红队编写的策略破坏代码的大多数尝试。
我们认为这些对抗性评估是压力测试监控系统的一条有前景的路径,随着模型能力的增强,这一点可能变得更加重要。我们正在多个方向上努力改进我们的测试:
- **更强的红队攻击。**AISI 已为我们关于 jailbreaking 的工作开发了复杂的自动化攻击技术;我们正在应用这些方法来寻找比人类单独攻击更强的攻击。我们还在尝试给予红队更多能力(例如微调模型或重写模型输出的能力)。
- **更真实和多样化的环境。**如果部署环境与我们的测试环境不同,监控器在现实世界中的表现可能会比在测试中更差。为应对这一点,我们正在构建尽可能贴近真实部署条件的测试环境。
- **实践。**我们认为现在就开始实践这种测试很重要,而不是等待未来更高风险的系统。这使我们能够在较低风险的环境中尝试技术(和测试方法),并将这些经验应用于未来更强大的系统。
如果您对此工作感兴趣,我们正在招聘研究科学家加入我们的红队。