UK AI Security Institute

沙盒AI智能体能从评估环境中学到什么？

What can sandboxed AI agents learn about their evaluation environments?

二〇二六年五月十三日 · 英文原文

摘要

英国AI安全研究所（AISI）将开源AI编码智能体OpenClaw部署在沙盒内，测试其获取评估环境信息的能力。该智能体通过TLS证书域名识别出AISI，从DNS设置推断操作员全名，通过硬件标识符确定云提供商，逆向工程API调用路由，并从微调模型名称重建研究时间线。AISI采取初步对抗措施后，智能体仍能绕过代理直接连接外部服务获取信息。

沙盒化AI智能体能从其评估环境中了解到什么？| AISI 工作

请启用本网站的JavaScript。

沙盒化AI智能体能从其评估环境中了解到什么？

我们将开源AI智能体OpenClaw部署在我们研究平台的沙盒内。尽管我们采取了初步的对抗措施，它仍然成功识别出了我们组织的名称，推断出了一位人类操作员的身份，并重建了我们部分研究活动的时间线。

—

2026年4月20日

在AISI，我们经常通过将AI智能体部署在沙盒中来对其进行评估——沙盒是隔离环境，让我们能够安全地测试其能力，同时限制其对外部系统和数据的访问。但AI智能体是否有可能从这些沙盒内部获取有关其评估环境的信息呢？

这种可能性如果成为现实，将根据所获取的信息引发若干担忧。例如，意识到自己正在被评估的智能体可能会相应地改变其行为，从而损害评估的完整性。此外，智能体可能能够识别出可利用的攻击面，例如将信息泄露给不受信任的外部系统的机制。

为了研究这些担忧，我们进行了一项实验，以了解开源AI编码智能体OpenClaw能从我们的一个沙盒内部了解到关于其环境的哪些信息。我们将一个OpenClaw实例部署到我们的研究平台上，并提示它尽可能多地了解自己是如何以及为何被部署的。最初，我们限制了所有外部网络访问——除了我们用来暴露语言模型API的内部代理。

我们发现，该智能体能够收集到大量信息：它识别出了我们组织的名称，推断出了操作员的全名，对我们部分云基础设施建立了详细的理解，并重建了我们研究活动的时间线。

在这篇博文中，我们总结了我们的结果以及它们为何对安全AI智能体评估的未来至关重要。

智能体发现了什么

我们提示OpenClaw利用其可用的工具探索其环境，尽可能多地了解它是如何被部署的以及部署的目的。该智能体拼凑出了一幅详细的图景：

我们的组织：网络配置和传输层安全（TLS）证书中的域名包含对AISI的引用。
操作员的身份：嵌入在容器DNS设置中的用户名使智能体能够推断出AISI一名员工的全名。
我们的云提供商：硬件标识符和系统版本字符串识别出了我们的云提供商以及正在使用的特定硬件。
我们的内部架构：通过检查自己的配置文件，该智能体逆向工程了我们如何通过内部代理路由和验证API调用。
我们的研究活动：一次API调用返回了超过一千个微调模型名称，智能体从中重建了我们研究主题的准确时间顺序。

在每一轮提示之后，我们都试图加固沙盒，但智能体总能找到更具创造性的方法来恢复相同的信息。例如，在我们引入一个代理层以向智能体隐藏我们的内部aisi.org.uk端点之后（图1），智能体完全绕过了代理，直接连接到外部服务并读取其TLS证书，通过域名识别出AISI。

关于智能体所使用的技术的更多细节，请参阅我们的完整论文。

图1：沙盒化pod的代理架构。智能体只能看到虚拟的API密钥和LLM端点，试图以此混淆AISI的身份。

为何这很重要

我们的许多评估要求智能体访问我们无法控制的外部服务。例如，我们可能会评估智能体如何应对网络上的对抗性内容，或者要求智能体浏览文档、与代码仓库交互以及使用第三方工具。这意味着智能体可能会在其发送给这些服务的请求中包含敏感信息，无论是由于prompt注入还是智能体自身的推理。

此外，信息发现本身也威胁着评估的完整性。在这个实验中，智能体能够从其部署的性质以及其对AISI工作的了解中推断出它正在一个沙盒化的评估环境中运行。这种评估意识对实验的有效性构成了风险，因为智能体可能不再像在典型部署中那样行事。AISI和其他机构已经研究了智能体在检测到自己正在被评估时如何改变其行为。一个特别令人担忧的可能性是，具有评估意识的智能体可能故意表现不佳，以显得能力较弱。这种现象被称为sandbagging，是一个活跃的研究领域。尽可能剥离环境细节可能无法解决这些问题，因为环境本身的空旷也可能向智能体发出信号，表明它正在被测试。

我们与OpenClaw的互动经验凸显了沙盒化AI智能体获取其评估环境信息的可能性，并引起了人们对相关风险的关注。完整的技术讨论，包括详细发现、架构图以及我们应用的缓解措施描述，可在随附论文中找到。

‍