为何我们研究白盒控制

Why we're working on white box control

二〇二六年五月十五日 · 英文原文

摘要

英国AI安全研究所（AISI）组建白盒控制团队，专注于检测sandbagging（策略性低表现）。白盒控制通过线性探针、稀疏自编码器等工具观察或修改神经网络内部激活状态，以应对黑盒方法中思维链不忠实或模型使用Neuralese推理的风险。实验测试Llama-3.1-8B-Instruct和Llama-3.3-70B-Instruct，发现白盒探针在简单任务中检测sandbagging优于黑盒监控器，但模型规模增大和任务复杂度提高导致两者性能下降。AISI未在历史测试记录中发现现实sandbagging证据。

AI控制的目标是设计各种措施，在最坏情况下假设未来系统与我们的利益不一致时，防止它们造成伤害。

我们可以将控制技术分为两类：黑盒措施和白盒措施。黑盒控制依赖于监控模型的_外部_行为，例如其思维链和最终输出。而白盒控制则涉及观察或修改其_内部_激活状态。

在英国AI安全研究所（AISI），我们组建了一个专门的白盒控制团队。我们目前的重点是检测sandbagging（策略性低表现），这是一种模型在评估中策略性地表现不佳的现象。今天，我们发布了一份详细的进展更新，描述了一些初步结果。

在这篇博客中，我们将介绍白盒控制的概念，并提供我们迄今为止研究的一些简要见解。

什么是白盒控制？

白盒控制涉及改变或观察神经网络内部发生的情况，以防止来自不对齐模型的危害。

它是机制可解释性的一种应用，该领域旨在理解AI模型的内部工作原理。白盒控制和机制可解释性可以使用许多相同的工具，例如线性探针（可以隔离网络特定层内的表示）和稀疏自编码器（有助于将神经网络解缠为更可解释的形式）。

白盒控制旨在利用我们对神经网络如何运作的理解来减轻潜在危害——要么通过主动监控模型的内部行为，要么直接干预它（例如使用特征引导）。

白盒控制的优势

在控制不对齐AI系统的问题上，使用黑盒技术我们可以取得很多进展！例如，我们可以让较弱的模型监控较强模型的输出，检查AI生成的代码是否存在后门，或限制每个模型实例可用的信息。即使不了解其内部工作原理，这些措施对AI安全也可能非常有用。

然而，我们知道模型的输出并不总是代表其内部行为。例如，思维链可能“不忠实”，意味着它们不反映模型真实的推理过程，研究表明随着模型规模增大，这个问题可能会恶化。特别是，sandbagging（我们当前研究的重点）的实例可能看起来与诚实错误难以区分，即使有完整的思维链可用。更糟的是，我们最终可能进入一个AI在不受限制的潜在空间而非自然语言中进行推理的阶段，输出一种不透明的“语言”称为Neuralese。开发白盒控制技术有助于我们为外部行为变得具有误导性或不足以理解模型推理过程的场景做好准备。

我们在sandbagging检测方面的工作

在过去的几个月里，我们进行了几项实验，研究在玩具实验设置中使用白盒和黑盒方法检测sandbagging的效果。

我们测试了两个开源语言模型Llama-3.1-8B-Instruct和Llama-3.3-70B-Instruct，在多种评估环境中。我们首先实验了明确提示模型进行sandbagging的设置，以确定它是否能够（即使不情愿！）这样做。

那么，我们检测这种行为的可靠性如何？我们发现，在提示执行相对简单任务时，欺骗探针（一种白盒方法）在检测两个模型中较小模型的sandbagging方面效果极好。一个可以访问模型输出的自动化监控器（一种黑盒方法）在相同设置中表现不佳，这为探针在sandbagging检测中优于黑盒监控器提供了一些证据。

不幸的是，我们还发现模型规模增大和任务复杂度提高导致白盒和黑盒监控器的性能都下降。在我们的第二个设置中，我们提示两个模型中较大的Llama-3.3-70B-Instruct执行一个多阶段、交互式的编码任务。这导致我们白盒监控器的准确率下降，部分原因是它难以将sandbagging与由于任务复杂度增加而导致的更高诚实错误率区分开来。但这似乎并不是_唯一_原因——当我们提示较大模型执行简单任务时，准确率也下降了。我们计划在未来的研究中调查为什么监控器准确率对模型规模敏感。

除了研究我们的方法在消除提示性sandbagging方面的效果外，我们还希望探索sandbagging是否已经在现实世界中发生。我们使用一个黑盒监控器分析来自AISI过去测试运行的记录，以检查是否存在关于意图表现不佳的公开推理证据。我们没有发现这样的证据——这表明模型要么没有进行sandbagging，要么以当前评估方法无法检测的方式进行。我们评估认为后一种可能性不大，尽管我们不能完全排除它。

未来方向

随着AI模型变得更加强大，准确评估它们的能力将变得更加重要。低估模型的能力可能导致缓解措施不足，并难以围绕强大AI可能带来的风险建立共识。我们认为，用于sandbagging检测和缓解的白盒方法可能发挥关键作用，特别是如果不忠实或不可解释的思维链意味着我们不能再依赖黑盒监控。

我们计划继续在更广泛的模型和评估场景中开展sandbagging方面的工作，并探索防止监控器准确率随模型规模和任务复杂度增加而下降的方法。具体来说，我们将通过红/蓝队博弈来压力测试我们方法的有效性，其中红队制定sandbagging策略，蓝队试图对抗这些策略。

我们的完整进展更新包含我们进行的每个实验的细节、初步结果和关键反思。

译自 UK AI Security Institute · 录于二〇二六年五月十五日