UK AI Security Institute

Inspect Cyber:Agentic网络评估新标准

Inspect Cyber: A New Standard for Agentic Cyber Evaluations

二〇二六年五月十五日 · 英文原文

英国AI安全研究所(AISI)发布开源Python包Inspect Cyber,用于标准化和简化智能体(agent)网络评估的创建与运行流程。该工具基于Inspect评估平台,通过两个配置文件定义评估与基础设施,支持生成评估变体、验证可解性,并继承Inspect的自定义智能体、评分机制、沙盒环境等功能。团队已在夺旗挑战、Active Directory服务及关键基础设施模拟等场景中内部使用,旨在降低开发时间、促进协作并提升评估可靠性。

AI系统在网络领域正变得愈发强大。这意味着它们既能越来越多地被用于防御网络威胁,也可能被利用来制造威胁。随着能力的提升,对更严谨、更真实、更具可重复性的评估的需求也在不断增长。

然而,当前构建这些网络评估的流程效率低下,团队在设计新基准时常常需要重写大量的环境搭建代码。这种低效拖慢了研究进度,阻碍了协作,也增加了可靠性方面的复杂性。今天,我们发布 Inspect Cyber,旨在标准化并简化创建和运行智能体网络评估的流程——这类评估用于测试AI智能体在不同环境中自主完成网络安全目标的能力。

当前实践的不足之处

当前创建和运行智能体网络评估的流程过于复杂。每一个新的评估或基准都需要重复相同的环境搭建工作,包括创建沙盒基础设施、将智能体连接到模型、以及开发运行脚本。缺乏标准化导致了几个关键问题:

Inspect Cyber:一个标准化的解决方案

我们开发了 Inspect Cyber 来解决这些低效问题。它构建在我们稳健的 Inspect 评估平台之上,为创建和运行智能体网络评估提供了一个直观、标准化的框架。这使得开发者能够更快地工作,专注于评估中最重要的方面,并更有效地进行协作。简而言之,这个开源 Python 包:

此外,由于 Inspect Cyber 构建在 Inspect 之上,它继承了 Inspect 的所有强大功能,包括支持使用自定义智能体、评分机制、沙盒环境以及人工监督或基线策略,轻松地在不同模型上运行评估。

加入我们的社区

几个月来,我们已在内部将 Inspect Cyber 用于一系列评估场景,从基础的夺旗挑战到模拟 Active Directory 服务、企业网络和关键国家基础设施的日益复杂的网络靶场。事实证明,它非常直接、稳健且强大。

然而,我们意识到 Inspect Cyber 可能尚未充分满足所有用户的工作流程。通过开源这个包,我们邀请社区提供反馈和贡献。我们的目标是继续降低创建智能体网络评估的门槛,使研究人员能够更顺畅地将他们的评估想法变为现实。

开始使用

我们建议从查阅包的文档开始。在那里,你还会找到演示如何使用 Inspect Cyber 构建夺旗网络靶场评估的示例。

我们鼓励你通过 GitHub 仓库分享你的想法和贡献。如果 Inspect Cyber 不适合你的工作流程,或者你对新功能有想法,请提交 issue 或 pull request。

让我们共同努力,开发我们这个领域所需的网络评估,以跟上快速发展的AI系统的步伐。我们很期待看到你的成果!

译自 UK AI Security Institute · 录于 二〇二六年五月十五日