UK AI Security Institute

自主AI网络能力进步有多快?

How fast is autonomous AI cyber capability advancing?

二〇二六年五月十五日 · 英文原文

2026年2月,AISI估算AI模型能完成的网络任务时长每4.7个月翻一番,较2025年11月估算的8个月有所加速。随后,Claude Mythos Preview和GPT-5.5显著超越该趋势,其中Mythos Preview首次完成AISI两个网络靶场。AISI与NCSC合作,指出AI网络能力转化为现实风险的可能性正在增长。评估基于窄域网络套件,每个任务限制250万token,以80%成功率为阈值。

2026年2月,我们内部估算,自2024年底以来,AI模型能完成的网络任务时长每4.7个月翻一番——这已比我们2025年11月估算的8个月有所加速。此后,AISI报告了两款新模型,Claude Mythos PreviewGPT-5.5,它们都显著超过了上述两种翻倍速率趋势。目前尚不清楚这是否代表一种新的、更快的趋势。

我们追踪网络能力的进步速度,以帮助政府了解如何为前沿AI做准备。随后我们与NCSC等其他组织合作,后者会向企业发布建议。虽然评估是衡量AI现实世界影响的不完美手段,但当前的变化速度表明,AI网络能力转化为切实风险的潜力正在增长——这些风险是英国组织在未来几个月将需要应对的。

这篇博文包含我们对GPT-5.5和Claude Mythos Preview的最新测试结果。自我们发布描述Mythos Preview预部署测试的博文以来,我们获得了对一个更新checkpoint的访问权限。这个checkpoint在网络安全方面取得了比之前版本更强的结果,包括首次完成了我们的两个网络靶场。

网络时间视野

时间视野基准测试衡量AI模型能完成的任务时长,以人类专家完成相同任务所需时间为参照。它们并非精确的性能预测器;AI在处理人类能快速完成的一些任务时会遇到困难,却能轻松完成人类觉得困难的其他任务。然而,我们使用这类基准测试是因为它能提供一种衡量AI自主性的指标,从而让我们能够从中归纳趋势。

在AISI,我们为窄域网络套件中的每个任务估算了一个人类网络专家完成它所需的时间¹。窄域套件中的任务要求模型识别并利用目标系统中的网络安全弱点,在独立环境中测试逆向工程和Web漏洞利用等技能。这些任务仅涵盖与现实世界网络攻击相关的部分能力。

对于超过三分之一的任务,我们计时了人类专家完成它们所需的时间作为基线。其余任务则使用专家对完成时间的估算,而非经验基线;这些估算可能偏高或偏低。通过计算前沿模型在窄域网络套件中所有任务上的成功率,我们可以估算出模型以给定成功概率(本文中我们关注80%的成功阈值)能完成的任务时长。

我们刻意将每个任务的token限制在250万,以使结果随时间具有可比性。这低估了前沿模型的能力。我们将在下文进一步讨论这一决定。

总而言之,一个时间视野结果的完整解读是:“我们估计,在我们的测试设置中,每个任务使用250万token,Claude Sonnet 4.5在人类专家需要16分钟的网络任务上将有80%的成功率,前提是这些任务与我们的窄域网络套件中的任务类似。”

为了分析能力进步的速度,我们对任意时间点上最强模型的历史结果拟合了一条指数曲线。这是一个不完美的模型,既不是未来预测,也不是固定规律。

网络时间视野结果

2026年2月,我们估计,自2024年底推理模型出现以来,在250万token限制下,前沿模型80%可靠性的网络时间视野每4.7个月翻一番。这大约是我们2025年11月估算的翻倍时间(50%和80%可靠性均为8个月)的一半。Claude Mythos Preview和GPT-5.5此后显著超越了这一趋势。在撰写本文时,尚不清楚Mythos Preview和GPT-5.5是现有进步速度的孤立突破,还是属于一种新的、更快的趋势的一部分。

Image 1

Tweet This Image

Download Image

图1:AISI窄域网络任务套件上的80%可靠性网络时间视野(250万token预算)。阴影带显示每个模型的bootstrap分布(对任务/运行进行1000次分层重采样)。内带为中央50%,外带为中央95%。我们网络套件中最长的任务为12小时。

Mythos Preview和GPT-5.5具有较大的上限误差条,因为即使在250万token限制下,它们在窄域网络套件的最长任务上也接近100%的成功率²。我们的任务也不够长,无法确定模型在更长任务长度下可靠性会如何急剧下降。这使得一些最新模型达到了我们窄域测试套件所能测量的极限。

如果没有250万token上限,成功率会高到无法计算时间视野。这个上限,加上我们使用_简单_的agent scaffold,人为地_降低_了成功率,并低估了模型在更多token和更强scaffold下所能做到的事情。作为回报,它确保了时间视野是可测量的,并且可以在不同模型之间进行比较。作为参考,250万token的限制相对较低——在我们的网络靶场实验中,我们使用了高达1亿token,并发现性能可能还会在超出该预算后继续提升,尤其是对于从更高token限制中获益不成比例的最新模型。

其他几个因素使得翻倍时间存在不确定性。更长的时间视野估计仅依赖于六个持续时间为8小时或更长的任务;更大的样本可能包含AI模型觉得比我们当前评估的任务更难或更易的长任务,从而减少或增加时间视野估计值。

人类基线也不完美——不同的专家可能比我们计时的人更快或更慢——而且对于六个最长的任务,我们只有少数几个人类基线。尽管如此,我们相信人类基线是有价值的,因为它们提供了比替代指标更客观的任务难度衡量标准。

另一个不确定性来源是,时间视野估计仅拟合了少量模型(历史估计的模型更少)。尽管这是一个问题,但我们的证据表明,这一趋势并不取决于单个模型。任何单个模型的缺失只会将Mythos之前的翻倍时间估计值移至最低4.1个月,最高5.0个月。

网络和软件自主性的进一步证据

我们最新的翻倍时间估计值接近METR(一家研究非营利组织)为软件工程(一种与网络相关但更广泛的技能集)估算的时间视野。他们的结果表明,自2024年底以来,软件任务的翻倍时间稳定在4.2个月³。

我们还在窄域任务套件之外观察到了网络自主性的进一步证据。AISI的网络靶场(如下所示)衡量AI模型完成针对小型、无防御企业网络的网络攻击的能力,其中初始访问权限已经获得。每个网络靶场都需要持续的规划和执行能力;更多细节可以在我们最近的论文中找到。

在AISI的最新测试中,较新的Mythos Preview checkpoint完成了我们的两个网络靶场,在10次尝试中解决了6次靶场“The Last Ones”,并在10次尝试中解决了3次之前未解决的“Cooling Tower”。这是模型首次完成我们两个网络靶场中的第二个。GPT-5.5在10次尝试中解决了3次“The Last Ones”。

这些结果使用了比之前AISI报告中包含的更新的Mythos Preview checkpoint。显著的能力跃升并不总是需要新模型发布:同一模型的后续迭代也可能显著改变我们对前沿能力的估计。

Image 2

Tweet This Image

Download Image

图2:在“The Last Ones”(一个32步的模拟企业网络攻击)上完成的平均步数,作为总token消耗的函数。每条线代表一个不同的模型,阴影区域显示每个token预算下所有运行的最小-最大范围。

影响

任何单一的基准测试结果都不应被视为AI能力的精确衡量标准。时间视野估计存在真正的不确定性;我们窄域套件中最长的任务拥有最少的人类基线,并且现在判断近期模型的阶跃变化是否代表一种新的持续(或加速)步伐还为时过早。无论如何,变化的方向和快速增长在我们检查的模型、方法论选择和独立数据中是一致的。

前沿AI的自主网络和软件能力正在快速进步:前沿模型能自主完成的网络任务时长以月为单位(而非年)翻倍。这些证据并未告诉我们进步速度将如何演变,AI何时会达到任何特定的能力阈值,或者这些能力将如何转化为针对有防御的现实世界系统。

更强的AI网络能力已经产生了切实的机遇和风险。网络防御者报告称,使用最新模型在漏洞发现方面取得了显著进展,并且对当今受控能力的访问可能会随着时间的推移而扩散。现在是投资于强大安全基线的时候了。前沿AI既能加强攻击者,也能加强防御者,并且存在一个建立韧性的关键窗口。国家网络安全中心最近发布了关于使用AI模型发现漏洞的建议

如果当前AI进步的速度持续(或加速),AI网络能力将仍然是一个快速变化的目标。我们正在开发更严格的网络评估以跟上步伐:新的网络靶场、对现有靶场的增强,以及增加主动网络防御以更好地反映现实世界条件。我们将继续评估前沿自主网络和软件能力,并根据证据的发展更新我们的估计。

译自 UK AI Security Institute · 录于 二〇二六年五月十五日