UK AI Security Institute

审计游戏以检测沙袋行为

Auditing games for sandbagging detection

二〇二六年五月十四日 · 英文原文

摘要

英国AI安全研究所（AISI）发布审计游戏论文，评估十种检测AI模型沙袋（sandbagging）行为的方法。红队使用密码锁定训练五个沙袋模型与诱饵模型，蓝队测试黑盒、白盒及基于训练的方法。黑盒方法（自动化工具、人工审查、提示方法）基本无效；白盒线性探针（linear probes）有前景但易被干扰；分布内训练（on-distribution training）可消除沙袋但无法可靠检测。研究指出当前方法不足以可靠检测沙袋，白盒方法与分布内训练需更深模型访问权限。

用于沙袋检测的审计游戏 | AISI 工作

请启用此网站的 JavaScript。

用于沙袋检测的审计游戏

我们的新论文分享了一项审计游戏的结果，该游戏评估了十种用于 AI 模型沙袋检测的方法。

—

2025 年 12 月 9 日

评估 AI 系统的能力对于为其部署和安全基础设施的决策提供信息至关重要。在 AI 安全研究所（AISI），我们对前沿模型进行评估，以更好地帮助政府、行业和公众了解它们的能力。

沙袋（sandbagging）风险——即 AI 模型在测试中表现不佳——有可能破坏这种理解，从而导致错误的安全评估和政策决策。因此，沙袋检测一直是我们模型透明度团队的关键关注点。

今年早些时候，我们发布了一份研究更新，详细介绍了关于沙袋的一些初步工作。此后，我们在研究结果的基础上开展了一项审计游戏，研究了十种检测方法的有效性。我们的方法受 Anthropic 工作的启发，让 AISI 内部的两个团队相互对抗：一个红队创建沙袋模型，一个蓝队试图检测它们。这篇博客总结了我们的发现。

审计游戏概述

我们的审计游戏借鉴了网络安全中的常见做法，让进攻性的红队与防御性的蓝队对抗。

红队使用条件性表现不佳（"密码锁定"）作为沙袋的代理，训练了五个模型。一些模型被训练为在评估中表现不佳，而另一些则作为诱饵。两种类型都可能表现出各种旨在混淆检测工作的"干扰行为"，例如过度使用双重否定或切换语言。蓝队的任务是使用多种检测方法来确定哪些模型在哪些评估中进行了沙袋操作，从而让我们能够衡量这些方法的有效性。

结果

我们总共测试了十种沙袋检测方法，结果喜忧参半。这些方法包括三种类型：

黑盒方法，依赖于模型的外部输出。
白盒方法，涉及观察其内部激活。
基于训练的方法，对模型进行后训练以激发其全部能力。

下图显示了我们尝试的每种方法的有效性：

黑盒方法

我们在黑盒方法上取得的成功非常有限。我们尝试使用自动化工具和随机人工审查来分析评估过程中产生的记录（即模型在给定任务中所做一切的详细记录）。最终，这种方法被证明不成功，因为模型没有给出明显的暗示表明它们是沙袋模型。之所以可能如此，是因为红队可以训练模型非常逼真地模仿较弱的模型。

我们还尝试了一系列专门的提示方法，例如旨在让模型"承认"沙袋行为的提示。这些方法也未能可靠地区分沙袋模型和良性模型。

白盒方法

与之前的研究一样，白盒方法被证明比黑盒方法更有前景。

我们使用线性探针（linear probes）来测试沙袋行为；这些是训练用于识别沙袋迹象的简单分类器模型。我们尝试了两种探针：欺骗探针（训练用于区分 AI 模型输出的真假陈述）和沙袋探针（训练用于在模型被特别指示进行沙袋操作的评估记录上）。

在游戏的第一阶段，探针被证明有一定效果，但红队后来能够使用干扰行为引入误报，这削弱了蓝队对它们的信心。

基于训练的方法

在游戏的第二阶段，蓝队被允许使用基于训练的方法来激发模型的全部能力。这涉及在展示模型成功完成一项最初看似困难的任务的记录上对模型进行微调。我们希望这能在沙袋模型上产生更大的性能提升，从而让我们能够识别它们。

蓝队尝试了两种主要的训练类型。分布内训练（On-distribution training）使用来自实际评估的示例。分布外训练（Off-distribution training）使用相关但不同的评估，例如使用不同编程题集的评估。分布外训练检测到了一些沙袋实例，因为在一个模型进行沙袋操作的分布上训练它，通常会消除其他分布上的沙袋行为。然而，这种方法被那些仅选择性进行沙袋操作的模型所击败。另一方面，分布内训练被证明在激发能力方面_非常_有效。我们仅使用一个示例就能在每个实例中恢复全部性能。

这使得分布内训练成为_消除_沙袋行为的可靠方法。然而，它也在良性模型中产生了性能提升，这意味着它在_检测_沙袋行为方面不太可靠。为什么这种区别很重要？尽管分布内训练提供了一条即使我们无法确认沙袋行为发生在何处也能可靠消除它的途径，但我们仍然认为检测很重要。沙袋行为的存在对风险有更广泛的影响——例如，它可能暗示存在其他欺骗性行为。

未来方向

我们的审计游戏没有找到沙袋检测的万能药，但它确实突出了一些有前景的研究方向。

分布内训练提供了一种消除沙袋行为的有效技术——但在检测方面效果较差。然而，这种训练在实践中可能不是最佳解决方案，因为对于更混乱、开放式的任务，很难展示完美性能，因此可能不可行。它还需要访问模型训练，而外部测试组织并不总是具备这种条件。

除了分布内训练，白盒方法也显示出前景。线性探针和稀疏自编码器（sparse autoencoders）对于识别沙袋行为很有用，但可能很脆弱且容易被混淆，导致漏报。我们鼓励进一步研究，以提高白盒方法在沙袋检测中的鲁棒性。

我们还应该注意，我们的游戏使用密码锁定作为沙袋行为的代理，这可能不代表真实沙袋行为可能出现的方式。真正具有欺骗性的模型可能需要推理何时以及如何进行沙袋操作，这可能使它们比我们的实验模型更容易被检测到。总体而言，我们的审计游戏表明，当前方法可能不足以可靠地检测沙袋行为。那些显示出前景的方法——例如分布内训练和线性探针——需要比外部评估者通常获得的更深入的模型访问权限；黑盒方法被证明基本无效。

在此阅读完整论文，或尝试我们的研究合作者 FAR.AI 开发的应用，看看你是否能检测到沙袋行为！

‍