Inspect 沙箱工具包：可扩展且安全的 AI agent 评估

The Inspect Sandboxing Toolkit: Scalable and secure AI agent evaluations

二〇二六年五月十五日 · 英文原文

摘要

英国AI安全研究所（AISI）发布Inspect沙箱工具包，用于在隔离环境中安全评估AI agent能力。该工具包包含Docker Compose、Kubernetes和Proxmox三个插件，分别支持多容器管理、复杂环境模拟和高风险虚拟机隔离。工具包将模型执行与工具调用环境分离，提供安全性、模块化和可扩展性。AISI已帮助美国CAISI、METR和Apollo Research采用该方案。配套协议按工具、主机、网络三个维度分类隔离级别。

我们如何测试AI系统的危险能力，同时避免造成现实世界的危害？

模型能力越强，安全评估的难度就越大。当一个agent能够执行任意代码并与关键系统交互以获取敏感信息时，在没有充分防护措施的情况下运行评估可能会使关键系统面临风险。

沙箱是用于测试和监控AI行为的隔离环境。当我们允许模型使用工具（例如编写代码）时，我们会在沙箱中执行该操作，以限制模型对外部系统和数据的访问。这使我们能够评估其能力，同时不暴露敏感资源。今天，我们发布了我们的工具包，用于安全运行agentic AI评估。

为什么我们构建了Inspect沙箱工具包

沙箱是软件开发中的常见做法，用于限制潜在不可信进程的资源和影响。在评估AI agent时，指令必须被适当地沙箱化，因为它们直接来自被评估的agent。

运行不可信进程在软件工程中是一个成熟的问题——但将沙箱应用于AI agent评估尤其带来了独特的挑战。我们需要评估AI agent与任意系统和服务交互以完成复杂多步骤任务的能力。但很难提前预测模型在此过程中可能需要访问哪些工具、其熟练程度如何，以及它是否会试图追求不一致的目标。

虽然确实存在一些用于AI评估的沙箱，但我们发现现有解决方案存在重要局限性。例如，它们可能允许安全执行Python代码，但阻止agent访问互联网或文件系统。

由于没有解决方案能提供全面agentic评估所需的安全性、可扩展性和灵活性，我们构建了符合这些要求的方案。

我们的解决方案：Inspect原生的沙箱插件

Inspect沙箱工具包是一组构建并开源的插件，旨在为先进AI模型提供多种agentic评估环境，同时附带了关于如何选择沙箱的文档。

我们希望构建一种原生机制，集成到Inspect中——这是我们用于能力评估的开源框架，正被AI安全与安保社区日益广泛采用。该工具包和文档使团队能够针对每次评估的具体风险概况讨论并实施适当的缓解措施，促进高级责任负责人与技术负责人之间的逐案决策。

我们在AISI内部一直在使用这个沙箱工具包的各个部分。我们还帮助了美国AI标准与创新中心（CAISI）、模型评估与威胁研究（METR）和Apollo Research采用这些开源沙箱提供者进行他们自己的agentic评估。

Inspect处理沙箱的一个显著特点是，它将模型执行或推理与进行工具调用的环境分离开来。Inspect本身位于沙箱_外部_，并根据被测试模型的要求向沙箱发送命令，以执行代码或函数。

这种架构提供了：

安全性：命令从沙箱外部发出。沙箱内发生的一切都由Inspect明确允许并启动。未来，我们可能面临沙箱化agent使用注入攻击试图访问Inspect Python代码的风险。我们正在积极考虑这一场景及相关的缓解措施。
模块化：隔离的脚手架服务器让您可以轻松切换功能和权限，创建适合您所需评估的环境。
可扩展性：您的模型能力越强——评估的风险越高——您的沙箱就需要越安全。Inspect原生机制让您可以轻松调整脚手架，以创建具有不同资源约束的环境。

我们的沙箱工具包解决了agentic评估中的多种风险场景。当前主要关注的是agent意外损坏基础设施。然而，我们越来越多地运行评估，有意测试agent逃逸沙箱的能力——这与我们的网络和自主性风险领域相关。

展望未来，我们也在研究针对可能主动攻击其沙箱的潜在不一致模型的防御措施。

工具包

我们的工具包包含三个Inspect插件：

Docker Compose：用于管理多容器评估场景的工具，让您可以轻松开始agentic评估。
Kubernetes插件：允许您模拟更复杂的环境，并根据资源需求自动启动或关闭容器。
Proxmox插件：为高风险评估提供强大的虚拟机（VM）隔离。

如果只提供工具而不提供使用指南，尤其是在agentic评估这样一个新颖的领域，可能会帮助不大。因此，我们还创建了一份配套的沙箱协议，帮助用户理解适合其评估的沙箱级别，并提供如何使用我们三种工具进行设置的端到端指南。

我们的沙箱协议沿三个不同维度对隔离进行分类：工具（限制模型对某些工具的访问，和/或执行代码的能力）、主机（防止模型逃逸或破坏主机系统）和网络（控制模型通过网络与外部系统——包括互联网——的交互）。

推文此图片

下载图片

我们的愿景

我们的目标是促进一个安全、可扩展且可分析的AI评估生态系统的繁荣发展。

我们的工具包让研究人员能够安全地测试高能力agent，并为AI评估社区提供了一个标准化的框架。其可扩展的安全措施旨在应对随着AI系统变得更加强大而出现的新兴威胁。

希望安全地评估您的AI agent？请查看我们的完整文档，开始使用Inspect的沙箱工具包产品。

译自 UK AI Security Institute · 录于二〇二六年五月十五日