UK AI Security Institute

前沿AI问答评估开发早期洞察

Early Insights from Developing Question-Answer Evaluations for Frontier AI

二〇二六年五月十七日 · 英文原文

AI安全研究所(AISI)针对开放式问答评估开发了一套五步方法,用于快速评估AI模型能力。该方法包括:起草与风险模型相关的挑战性问题、制定具体评分指南(含部分正确标准)、通过独立训练/验证/测试集进行能力激发、建立LLM自动评分器(使用Krippendorff's Alpha衡量可靠性并监控偏见)、以及获取人类基线(考虑选择、激励与队列规模)。评估通过开源框架Inspect运行,已开发数百个问答对,旨在替代选择题以更真实反映模型在对话场景中的表现。

致读者:我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请点击此处

摘要

快速评估 AI 模型能力的常见方法之一是让模型回答数百个问题,然后自动对答案进行评分。如果问题是选择题,自动评分就很容易。但如果我们同时提出开放式问题(这类问题有多个有效答案),就能更全面地了解模型的能力。挑战在于如何编写这些开放式问题并自动评分,同时确保结果尽可能具有信息量。

在 AI 安全研究所,我们已针对开放式问答测试进行了数月的研究。这篇博文将分享我们在这一工作中的经验与关键见解。我们希望这些分享能推动评估科学的发展,并为其他正在构建自身评估体系的人提供一些实用建议。

问答评估:广泛而快速的评估工具

我们的问答评估包括提出开放式问题,并根据详细的评分指南对回答进行评估。虽然这种方法比给选择题评分更困难(如 Biderman 等人所述),但我们更依赖开放式问题而非选择题,原因如下:

我们对问答评估的回答通常在 100 到 400 词之间。对这些回答的评分可以基本实现自动化,从而使问答评估成为我们评估工具套件中最广泛、最快速的工具。要全面评估 AI 系统的能力,问答评估始终需要与其他方法(如长周期任务和/或随机对照试验)结合使用。

在这篇文章中,我们将概述 AISI 开发稳健问答评估所遵循的五个步骤,分享我们在开发数百个问答对过程中需要考虑的关键问题以及学到的经验教训。我们的问答评估通过 Inspect(我们用于前沿模型评估的开源框架)运行。

1. 起草有意义的挑战性问题

问答评估的质量取决于其所提出的问题。有意义的挑战性问题应与风险模型相关,从目标用户的角度出发,清晰简洁,并能评估模型对新颖问题的泛化能力。遵循这四条启发式规则可以避免问题过于简单(导致正确答案毫无意义)或在不相关的方面过于困难。

2. 制定具体、全面的评分指南

编写好的问题是确保评估衡量我们感兴趣内容的关键。编写好的评分指南对于确保任何衡量结果都能反映真实的 AI 系统能力,而非我们评估方法的具体细节至关重要。

3. 能力激发

准确评估 AI 系统的全部潜力对于理解其能力和潜在风险至关重要。我们的评估旨在与我们的风险模型(涵盖一系列场景)最大程度相关。我们通常旨在了解 AI 系统在利用一系列最先进工具和技术时的能力,因为这能洞察当前和潜在的近期风险。

考虑 LLM 的一系列用例使得能力激发变得困难。理想情况下,我们会多次进行能力激发,每次只使用我们认为相关用户实际能够使用的工具和技术。在实践中,我们只进行一次能力激发,尽可能测试我们认为可能提升性能的多种技术和工具。

这种方法有两个目的。首先,它有助于估计模型在熟练行为者使用时的性能上限。其次,它可能使我们的评估更能预测未来性能,因为目前仅限于专家使用的工具可能通过未来的聊天界面变得广泛可用。然而,我们承认这种仅估计性能上限的方法是一种折衷,并计划在未来进一步探索。

我们的方法并不意味着简单地优化性能:通过在提示中包含问题的正确答案来达到 100% 的准确率是微不足道的,但这对于模型在未见问题上的能力没有信息量。为了在避免过拟合的同时评估最大性能,我们遵循常见的机器学习最佳实践,创建独立的训练集、验证集和测试集。训练集用于创建 few-shot 提示。然后在验证集上优化激发技术,最后使用一组最佳技术在测试集上评估模型。在接近能力激发和运行最终评估时,需要考虑的一些重要点包括:

4. 建立并优化自动评分器

我们问题的开放性和复杂性使得对回答进行评分具有挑战性,即使每个问题都有专家编写的指南。使用人类专家对所有回答进行评分成本过高且耗时,不切实际。为了提高评估的速度和广度,我们建立了自动评分系统,并使用少量回答上的人类专家评分进行校准。自动评分由 LLM 执行,该 LLM 被提示考虑问题和评分指南,为每个答案分配分数。我们在附录 A 中提供了一个评分器模型提示示例。

同样重要的是要认识到,即使是人类专家评分者也可能引入不准确性和偏见,给评分过程带来额外挑战。评估人类专家评分者的表现很困难,通常涉及对评分者给出的解释和分数进行人工分析。使用多位专家对相同回答进行多次评分可能有所帮助:分歧可以表明评分指南不佳或评分者表现不佳。使用尽可能多领域专业知识的专家也可能有帮助:例如,我们通常使用相关学科的博士专家。

在评估自动评分器的性能时,两个关键考虑因素是:

通过监控偏见和可靠性,我们可以确保我们的自动评分器即使不完全可靠,也能在不同来源的回答之间保持公平。这使我们能够自信地使用不完美的自动评分器来比较不同语言模型与人类专家的相对性能。

衡量可靠性的一个有用指标是 Krippendorff's Alpha,这是统计学中广泛使用的评分者间信度度量。我们发现这比考虑准确率更有信息量,因为它非常适合有序数据

为了衡量偏见,我们比较人类和不同 AI 系统之间的平均评分模式。例如,我们比较人类专家分配正确分数的比例与自动评分器分配正确分数的比例。与使用更主观评分的近期工作相比,我们尚未发现使用此指标时自动评分器对其自身输出存在正向偏见的证据。

一旦确定了评估自动评分器的指标,就可以对自动评分器进行优化。类似于对被评估模型进行能力激发时,创建验证/测试拆分对于确信自动评分器能够泛化到新回答非常重要。我们采用多种技术来优化自动评分器的性能,包括:

微调也可能进一步提升性能,但其成功与否取决于可用的微调数据。

评分器模型的优化应被视为一个迭代过程:在较弱模型回答上表现良好的自动评分器并不能保证在新模型上同样表现良好。我们通常会在新的 AI 系统(要么比我们之前评估过的 AI 系统能力显著更强,要么来自我们尚未评估过的新模型系列)上验证自动评分器的性能。在评估新的 AI 系统时,我们通常为每个问答评估从新 AI 系统生成 50 个回答的人类专家评分,并使用我们的可靠性和偏见指标与自动评分器的性能进行比较。性能不佳将需要在未来进一步优化自动评分器。

5. 获取人类基线

将 AI 系统的回答与人类群体的回答进行比较,对于将 AI 性能置于背景中至关重要。选择合适的人类基线测试者可以确保基线与我们关注的风险模型相关,而适当的激励和足够大的队列规模则能确保研究结果的稳健性。

我们发现,与评估结果的“消费者”就人类基线的类型进行详细对齐,对于确定 AI 系统超越该基线是否应被解读为令人担忧非常有帮助。有时,除了人类基线之外,还需要额外的证据——例如,某种级别的指令(即使与专家提供的指令相当)是否有助于人们在现实任务中表现更好。

展望未来:合作制定不断发展的标准

随着我们在问答评估工作中取得进展,很明显这是一个持续的过程。我们已经学到了很多,但还有更多需要探索和完善。我们将自己的工作视为一个更大的、不断发展的科学的一部分,并渴望与该领域的其他人合作。如果你想加入我们的团队,为前沿 AI 安全开发更有意义的评估,请考虑申请我们的空缺职位

译自 UK AI Security Institute · 录于 二〇二六年五月十七日