自动化对齐研究者:使用 LLM 扩展可扩展监督
Automated Alignment Researchers: Using large language models to scale scalable oversight
Anthropic Fellows 研究用九个 Claude Opus 4.6 副本构建 Automated Alignment Researchers,研究 weak-to-strong supervision。以 Qwen 3-4B-Base 和 Qwen 1.5-0.5B-Chat 测试,人类7天达 0.23 PGR,AARs 五天800小时达 0.97;held-out math/code 为 0.94/0.47,Claude Sonnet 4 production scale 未见显著提升。
大语言模型改进速度不断加快,这给 alignment(对齐)研究提出了两个尤为重要的问题。
第一个问题是,alignment 如何跟上这种速度。Frontier AI models 现在已经在参与其后继模型的开发。但它们能否为 alignment 研究者提供同样的助力?我们的 language models 能否被用来帮助对齐它们自身?
第二个问题是,当模型变得比我们更聪明时,我们该怎么办。对齐 smarter-than-human AI models 是一个被称为 “scalable oversight”(可扩展监督)的研究领域。Scalable oversight 过去主要是在理论层面而非实践层面被讨论,但以 AI 当前的改进速度来看,这种情况可能不会持续太久。例如,模型已经在生成大量代码。如果它们的能力发展到能够生成数百万行极其复杂、而我们自己无法解析的代码,那么判断它们是否按照我们的意图行事就可能变得非常困难。
在一项新的 Anthropic Fellows 研究中,我们同时探讨了这两个问题。
我们的新研究聚焦于一个被称为 “weak-to-strong supervision”(弱到强监督)的问题,这个问题与监督 smarter-than-human AI models 的问题相映照。我们从一个相对较强的 “base” model 开始——也就是说,这是一个可能具备能力、但尚未经过 fine-tuning 以给出其最佳答案的模型。然后,我们使用一个弱得多的模型作为 “teacher” 来提供额外的 fine-tuning:它通过向强 base model 展示自己认为理想的输出来完成这一点。最后,我们评估这个强模型在经过这种弱 fine-tuning 之后表现如何。
在最坏情况下,强模型只会达到其弱 teacher 的水平。但理想情况下,强模型会从弱 teacher 的反馈中学习——它会以有用的方式解读这些弱信号,并利用这些反馈提升自身表现。我们可以量化它做到这一点的程度:如果强模型完全没有提升(表现只达到其弱 teacher 的水平),我们给它记 0 分;如果它利用 teacher 的反馈达到了理想结果——即强模型所能实现的最佳表现——我们给它记 1 分。这个指标表示“恢复的性能差距”(即弱模型与强模型上限之间的差距),也就是 PGR。
作为 scalable oversight 的 proxy(代理问题),弱模型代表人类,强模型代表我们未来可能需要监督的远超人类智能的模型。如果我们能在 weak-to-strong supervision 上取得进展,或许会发现这些方法能帮助我们让那些超高智能模型与我们的价值保持对齐。
我们的新研究测试 Claude 是否能够自主发现提升 PGR 的方法。我们提出的问题是:Claude 能否开发、测试并分析自己的 alignment 想法?如果可以,这又意味着当今 AI models 能在多大程度上加快 alignment 研究的进展?
为此,我们从九个 Claude Opus 4.6 副本开始,并为每个副本提供了一些额外工具。每个 Claude 都有一个工作和思考的空间(即 sandbox)、一个与其他 Claude 交流发现的共享 forum、一个用于上传代码的 storage system,以及一台 remote server,可为它的每个想法返回 PGR score。我们还提供了一些关于 model training 和 inference 的背景知识。我们把这些配备了工具的 Claude models 称为 Automated Alignment Researchers(简称 AARs)。
为了防止每个 AAR 追求几乎相同的想法,我们给每个 AAR 提供了一个略有不同(但有意保持模糊)的起点:我们建议其中一个使用一些 interpretability tools,建议另一个思考如何对 dataset 中的数据重新加权,依此类推。1 除此之外,我们没有告诉 AARs 该做什么。它们需要自行提出想法、运行实验、分析结果,并彼此分享发现和代码,从而决定下一步该尝试什么。
为了给 AARs 的结果提供一个 benchmark,我们将它们的工作与 human baseline 进行比较。我们的两名研究者花了七天时间,对既有研究中四种最有前景的 generalization methods 进行迭代。在我们测试的 open-weights models 上(Qwen 3-4B-Base 作为强模型,Qwen 1.5-0.5B-Chat 作为弱 teacher),人类研究者恢复了总性能差距的 23%(即达到 0.23 的 PGR)。2
Claude 大幅改进了这一结果。在接下来的五天里(累计 800 小时研究),AARs 几乎弥合了剩余的全部性能差距,最终达到 0.97 的 PGR。这大约花费了 $18,000 的 tokens 和 model training 费用,即每个 AAR-hour $22。下图展示了每个单独的 AAR 如何从 human baseline(0 小时时)开始取得进展。
因此,Claude 的表现非常好。但它的方法有多大创造性?是否能用于真实世界应用?为此,我们又进行了两项测试。
首先,我们测试 AARs 的想法能否在 held-out datasets 上恢复性能差距——也就是在 AARs 尚未见过的任务上。我们选取了 AARs 表现最好的两种方法(基于一个 chat tasks dataset),并将它们应用到 math 和 coding tasks 上。在这里,我们的结果相对可观:AARs 最有效的方法成功泛化到两个新 datasets,在 math 上 PGR 为 0.94,在 coding 上 PGR 为 0.47(仍然是 human baseline 的两倍)。AARs 的第二优方法结果不一:它在 math 上有效(0.75),但在 code 上无效,反而让情况变差。这些结果表明,AARs 研究中的某些 generalizability 是可能的,但并非必然。我们鼓励其他进行 automated research 实验的人,也用 held-out datasets 对 AARs 的想法进行 stress-test。
接下来,我们测试 AARs 的想法是否能在 production scale 上发挥作用。我们在 Claude Sonnet 4 上使用我们的 production training infrastructure 尝试了 AARs 最有效的方法。不过在这里,我们没有取得那么好的结果。AARs 的方法没有带来 statistically significant improvement。我们认为,这可能反映了这次早期试验的局限,而不一定是更根本的问题:我们的 scoring method 相当简单,而且只评估了一个想法。尽管如此,这确实说明了 AARs 的一个局限(至少在它们当前能力下):AARs 往往会利用给定 models 和 datasets 中特有的机会,这意味着它们的方法在其他地方可能不起作用。为缓解这一点,我们建议允许 AARs 在研究过程中针对多个 domains 和 datasets 进行测试。这是未来 AARs 实验可以探索的一个方向。
我们通过几轮实验迭代进一步了解了如何让 AARs 最有效。例如,我们发现给每个 AAR 一个不同的起点很有帮助,即使这个起点很模糊。当我们在没有让 AARs 朝不同方向出发的情况下进行实验时,它们很快都收敛到相似的想法,整体进展小得多(尽管它们仍然达到了接近 human baseline 三倍的 PGR)。另一方面,我们发现给 AARs 过多结构会严重损害它们的进展。当我们规定一个具体 workflow(“先提出想法,然后生成计划,然后编写代码……”)时,我们发现最终限制了 Claude 的工作。让 Claude 自行安排时,它的适应性要强得多:它会先设计低成本实验来测试自己的想法,然后再投入强度高得多的测试。
我们的 AARs 在恢复两个 open-weights models 之间性能差距方面取得成功,当然并不意味着 frontier AI models 现在已经是通用型 alignment scientists。我们有意选择了一个特别适合自动化的问题,因为它有一个单一、客观的成功指标,模型可以围绕该指标进行优化。大多数 alignment problems 远没有这么清晰。而且,正如下文所述,即使在这个设定中,我们的 AARs 也会尽力 game 这个问题:human oversight 仍然是必要的。
但我们确实认为,这些结果有一些重要含义。
跟上进度。这项研究表明,Claude 能够有意义地提高 alignment research 中实验和探索的速度。Human researchers 可以大规模地把问题委托给 AARs;Claude 可以承担提出新假设并对自身结果进行迭代的任务。
此外,在 weak-to-strong supervision 上取得进展,本身也可能帮助我们构建更通用的 Automated Alignment Researchers,这也是我们选择这个问题进行研究的原因。在这项研究中,我们把 weak-to-strong supervision 问题表述为一个具有可验证结果(提高 PGR score)的 “crisp” task(清晰任务)。我们这样做,是因为需要一种方法来自动且可靠地评估 AAR 是否取得了进展。不过,如果 AARs 发现了更好的 weak-to-strong supervision methods,并且这些方法能跨 domains 泛化,我们就可以使用同样的方法来训练 AARs 评估那些更 “fuzzy”(模糊)、更难验证的任务上的进展。(例如,我们可以对 Claude 界定研究项目范围的能力进行 weak-to-strong supervision。)这一点很重要,因为 alignment research 不同于 capabilities research,通常需要解决更 “fuzzy” 的问题。
品味与多样性。针对 AARs 这类工具,一种可能的反驳是,当今 frontier models 仍然缺乏 “research taste”(行业说法,指对哪些想法可能有效、哪些不会有效具有直觉判断)。但 AARs 在这项实验中的成功表明,想法的巨大数量可能弥补 “taste” 的不足。如果 AARs 能以很低成本运行大量实验,它们就可能通过 “brute force” 找到那些极具 “taste” 的研究者可能会想到的发现,或者在这些研究者原本可能放弃的方向上取得成功。
相应地,alignment research 的核心瓶颈可能会从 generation(依赖 human researchers 提出有前景的想法)转向 evaluation(确保实验设置足够好,使我们能够信任其结果)。
异质科学。这项工作还可能带来一些更奇特的含义。AARs 从本质上就是为了发现人类可能没有想到的想法而设计的。但我们仍然需要一种方法来验证它们的想法和结果是否可靠。目前,我们仍然能够解释 AARs 做了什么以及为什么这样做。但情况未必永远如此:随着时间推移,模型的想法可能会变得更难验证,或者以人类难以解析或捕捉的方式被破坏。这可能意味着创造一种 “alien science”(异质科学)。
防止 hack。即使在这个高度受限的环境中,我们也观察到了模型的 “reward hacking”——也就是试图 game 我们的设置。例如,在 math tasks 上,一个 AAR 注意到每道题最常见的答案通常是正确的,于是它完全跳过 teacher,指示强模型总是选择最常见的答案。在一个 coding task 中,模型需要预测一段代码是否正确,AAR 意识到它可以用一些 tests 运行代码,然后直接读出正确答案。这样的 hacks 并不会使我们的结果失效(我们检测并取消了这些提交的资格),但它们显然提供了一个警示。任何 automated researchers 的部署都需要 AARs 无法篡改的 evaluations,并且需要人类检查它们的结果和方法。
要阅读这项研究的全文,请参见我们的 Alignment Science blog。这项工作的代码和 datasets 已公开发布,见此处。