UK AI Security Institute

前沿AI智能体在多步网络攻击场景中表现如何？

How do frontier AI agents perform in multi-step cyber-attack scenarios?

二〇二六年五月十三日 · 英文原文

摘要

英国AI安全研究所（AISI）在两个自建网络靶场（32步企业网络攻击“最后的幸存者”和7步工业控制系统攻击“冷却塔”）上测试了GPT-4o、Opus 4.5、Opus 4.6、GPT 5.3 Codex等七个LLM。在1000万token预算下，平均完成步数从GPT-4o的1.7步升至Opus 4.6的9.8步；将token预算增至1亿，性能提升最高达59%。在“冷却塔”上，模型进展有限，Opus 4.6最高平均完成1.4步。

前沿AI智能体在多步网络攻击场景中表现如何？| AISI 工作

请启用本网站的JavaScript。

前沿AI智能体在多步网络攻击场景中表现如何？

我们在两个自建的网络靶场上测试了七个大型语言模型（LLM），衡量它们在复杂环境中执行扩展攻击序列的能力。

—

2026年3月16日

阅读论文

AI智能体能否自主发起网络攻击？如果AI智能体能够在最少人工监督下可靠地执行多步攻击链，这可能会降低低技术水平威胁行为者的技能门槛，提升经验丰富攻击者的攻击复杂度，甚至催生全新的攻击操作。

随着网络能力的提升，需要越来越复杂的测试来准确衡量这些能力。现有的网络评估依赖于孤立的CTF挑战或问答集。虽然这些方法对衡量特定技能有价值，但它们无法捕捉AI系统是否具备在复杂环境中执行扩展攻击序列所需的自主、长周期能力。

为弥补这一空白，我们开始在网络靶场上评估模型：这些靶场是由网络安全专家构建的模拟网络环境，包含多个主机、服务和漏洞，并按顺序排列成攻击链。

通过比较在2024年8月至2026年2月这18个月期间发布的七个模型，并在不同的推理计算预算下进行测试，我们观察到两个能力趋势。

首先，在固定token预算下，每一代新模型都优于前代：在我们的企业网络靶场上，使用1000万token时，平均完成步数从GPT-4o（2024年8月）的1.7步上升到Opus 4.6（2026年2月）的9.8步。最佳单次运行完成了32步中的22步，相当于人类专家所需约14小时中的大约6小时。

其次，扩展推理计算量能进一步提升性能。从1000万token增加到1亿token，性能提升高达59%，这与AISI此前关于网络能力与推理扩展之间关系的研究结果一致。

在这篇博客中，我们将解释我们的方法论，详细阐述我们的结果，并描述其对更广泛的AI评估和政策社区的关键意义。更详细的讨论请参见我们的完整论文。

‍

我们的网络靶场

我们在两个靶场上测试了模型：

"最后的幸存者" 是一个32步的企业网络攻击。攻击者必须通过逐步渗透企业、窃取凭证、利用web应用、逆向工程二进制文件、攻破CI/CD流水线，并在跨域企业网络中执行SQL注入链，来窃取敏感数据。我们估计人类专家大约需要14小时完成。

"冷却塔" 是一个7步的工业控制系统（ICS）攻击。攻击者必须通过逆向工程一个专有控制协议来构造恶意命令，从而破坏模拟发电厂的冷却塔。每一步对应的工作量都大得多，依赖关系也更复杂。我们估计人类专家大约需要15小时完成该靶场。

关键的是，这两个靶场都没有主动防御者：检测会被记录，但不会阻止或减缓智能体。这意味着我们的结果衡量的是在缺乏防御响应情况下的原始能力。

我们的发现

每一代新模型都推进得更远

第一个关键趋势是，在固定token预算下，每一代新模型都优于前代。在"最后的幸存者"上，GPT-4o（2024年8月）在1000万token下平均完成1.7步，而Opus 4.6（2026年2月）平均完成9.8步。在1亿token下，差距更大：Opus 4.5平均完成11.0步，而Opus 4.6平均完成15.6步——相隔约两个月发布的模型之间提升了42%。

这种改进可能体现在两个维度上。第一个是token效率：模型每花费一个token能取得多少进展。较新的模型显示出更陡峭的早期斜率，用更少的token就能达到里程碑。第二个是能力深度：模型是否具备足够强的专业技能——例如逆向工程、密码学或漏洞利用开发——来克服特别困难的步骤。例如，GPT-4o在第2步之后完全停滞，表明它缺乏后续攻击阶段所需的原始能力。

在第4个里程碑之后，性能急剧下降，这标志着从侦察和web利用阶段转向需要逆向工程、密码学和恶意软件开发等专业知识的攻击阶段。Opus 4.6是第一个能够持续突破这一障碍的模型。