前沿AI问答评估开发早期洞察

Early Insights from Developing Question-Answer Evaluations for Frontier AI

二〇二六年五月十七日 · 英文原文

摘要

AI安全研究所（AISI）针对开放式问答评估开发了一套五步方法，用于快速评估AI模型能力。该方法包括：起草与风险模型相关的挑战性问题、制定具体评分指南（含部分正确标准）、通过独立训练/验证/测试集进行能力激发、建立LLM自动评分器（使用Krippendorff's Alpha衡量可靠性并监控偏见）、以及获取人类基线（考虑选择、激励与队列规模）。评估通过开源框架Inspect运行，已开发数百个问答对，旨在替代选择题以更真实反映模型在对话场景中的表现。

致读者：我们已于 2025 年 2 月 14 日更名为 AI 安全研究所。更多信息请点击此处。

摘要

快速评估 AI 模型能力的常见方法之一是让模型回答数百个问题，然后自动对答案进行评分。如果问题是选择题，自动评分就很容易。但如果我们同时提出开放式问题（这类问题有多个有效答案），就能更全面地了解模型的能力。挑战在于如何编写这些开放式问题并自动评分，同时确保结果尽可能具有信息量。

在 AI 安全研究所，我们已针对开放式问答测试进行了数月的研究。这篇博文将分享我们在这一工作中的经验与关键见解。我们希望这些分享能推动评估科学的发展，并为其他正在构建自身评估体系的人提供一些实用建议。

问答评估：广泛而快速的评估工具

我们的问答评估包括提出开放式问题，并根据详细的评分指南对回答进行评估。虽然这种方法比给选择题评分更困难（如 Biderman 等人所述），但我们更依赖开放式问题而非选择题，原因如下：

它们能反映 AI 系统在聊天和对话应用中的真实使用场景。
它们能缓解选择题中模型通过排除错误答案来得出正确答案的问题，如 Laurent 等人所指出的。

我们对问答评估的回答通常在 100 到 400 词之间。对这些回答的评分可以基本实现自动化，从而使问答评估成为我们评估工具套件中最广泛、最快速的工具。要全面评估 AI 系统的能力，问答评估始终需要与其他方法（如长周期任务和/或随机对照试验）结合使用。

在这篇文章中，我们将概述 AISI 开发稳健问答评估所遵循的五个步骤，分享我们在开发数百个问答对过程中需要考虑的关键问题以及学到的经验教训。我们的问答评估通过 Inspect（我们用于前沿模型评估的开源框架）运行。

1. 起草有意义的挑战性问题

问答评估的质量取决于其所提出的问题。有意义的挑战性问题应与风险模型相关，从目标用户的角度出发，清晰简洁，并能评估模型对新颖问题的泛化能力。遵循这四条启发式规则可以避免问题过于简单（导致正确答案毫无意义）或在不相关的方面过于困难。

相关性： 问题涉及什么内容？为什么重要？如果 AI 始终能正确回答，这说明了什么（例如，你试图衡量的能力或风险）？理想情况下，详细的风险模型会识别出值得关注的场景和行为者，从而可以明确定义会导致风险实现的 AI 能力，并设计评估来测试这些能力。在实践中，我们迭代地开发问答评估和风险模型，来自不同初始关注领域的问答集结果会为更详细的风险建模提供信息。反过来，详细的风险模型也会指导我们更新、重新分组和扩展问答集。我们预计这一迭代过程将持续下去，因为我们会在政府专家的输入下完善风险模型，并将评估结果反馈给他们。
视角： 谁在提问？风险模型如何影响评估设计的一个特别重要的方面是考虑不同的用户群体，从外行到领域专家。让问题具有挑战性可能涉及引入代表性用户可能持有的常见误解，或融合不同的研究领域——这对于老练的用户来说更合理。我们经常观察到一种失败模式：把问题做得像“考试题”，而不是尽可能接近与优先风险模型相关的真实使用场景。
清晰度： 问题是否为回答者提供了足够的指导，使其能够得出正确答案？在过于模糊和过于具体之间取得平衡，是避免歧义导致错误评分的关键。例如，如果评分指南规定“必须提及以下五项中的至少两项”，那么问题就需要明确要求回答两项。反之，如果问题非常具体，例如“现任英国首相的名字是什么？”，评分指南应只给出名字，而不包含额外背景信息（例如现任首相何时当选），因为这可能导致自动评分器对“仅仅”给出名字来回答特定问题的答案给出不正确或部分分数。
记忆与原创性： 这个问题是否容易通过简单的互联网搜索回答？问题和答案是否存在于 LLM 的现有训练数据中？确保原创性意味着评估结果能更好地反映 AI 进行推理并将知识应用于新情况的能力，而不仅仅是检索记忆中的信息。

2. 制定具体、全面的评分指南

编写好的问题是确保评估衡量我们感兴趣内容的关键。编写好的评分指南对于确保任何衡量结果都能反映真实的 AI 系统能力，而非我们评估方法的具体细节至关重要。

粒度评分： 我们希望设计评估，使性能尽可能连续地随模型能力变化。Schaeffer 等人证明，使用连续指标有助于评估性能更平滑地提升。对于问答评估，向更连续指标的一个简单改变是在答案指南中不仅指定正确与错误的标准，还指定部分正确的标准。这有助于判断模型是否接近正确回答问题，从而提供关于模型能力趋势的有用早期信号。
清晰指南： 指南是否详细说明了什么是“正确”、“部分正确”或“错误”答案？在具体性、全面性和简洁性之间取得平衡是一门艺术，必须把握好。这种平衡直接影响评估在不同场景下的稳健性：评估不同 AI 系统时、考虑不同人类评分者及其对“好”答案的解释时，以及使用各种模型作为自动评分器时。虽然我们预计随着 AI 系统通用推理能力的提升，自动评分器会与人类专家评分者更加一致，但清晰描述正确答案所需内容的需求不太可能消失。
问题-指南一致性： 为了解决歧义并纠正对问题和/或答案指南的任何潜在误解，我们通常同时优化问题和答案。通过多次迭代测试和完善这些元素，确保只有与威胁模型背景相关的正确答案才被标记为正确，从而避免评估结果出现假阴性和假阳性。在 AISI，我们通常进行 2-3 轮让人类和/或 AI 系统回答问题，然后审查和完善问答对，最后才最终确定评估。对这些答案进行评分的难度是一个有用的信号，表明指南需要更新。
指标： 你只关心正确答案的数量，还是还想衡量其他方面？我们经常发现区分所有问题中的正确答案比例与 AI 系统尝试回答的问题中的正确答案比例很有信息量。了解 AI 系统在哪些情况下甚至不尝试回答，有助于我们了解能力是否受到缺乏工具、信息或某些训练行为（例如，当被问及情绪时解释“我只是一个语言模型”）的限制。同样，我们发现分析部分正确或错误答案的转录对于形成关于什么限制了能力以及哪些未来发展可能提升能力的观点至关重要。

3. 能力激发

准确评估 AI 系统的全部潜力对于理解其能力和潜在风险至关重要。我们的评估旨在与我们的风险模型（涵盖一系列场景）最大程度相关。我们通常旨在了解 AI 系统在利用一系列最先进工具和技术时的能力，因为这能洞察当前和潜在的近期风险。

考虑 LLM 的一系列用例使得能力激发变得困难。理想情况下，我们会多次进行能力激发，每次只使用我们认为相关用户实际能够使用的工具和技术。在实践中，我们只进行一次能力激发，尽可能测试我们认为可能提升性能的多种技术和工具。

这种方法有两个目的。首先，它有助于估计模型在熟练行为者使用时的性能上限。其次，它可能使我们的评估更能预测未来性能，因为目前仅限于专家使用的工具可能通过未来的聊天界面变得广泛可用。然而，我们承认这种仅估计性能上限的方法是一种折衷，并计划在未来进一步探索。

我们的方法并不意味着简单地优化性能：通过在提示中包含问题的正确答案来达到 100% 的准确率是微不足道的，但这对于模型在未见问题上的能力没有信息量。为了在避免过拟合的同时评估最大性能，我们遵循常见的机器学习最佳实践，创建独立的训练集、验证集和测试集。训练集用于创建 few-shot 提示。然后在验证集上优化激发技术，最后使用一组最佳技术在测试集上评估模型。在接近能力激发和运行最终评估时，需要考虑的一些重要点包括：

语言模型随机性： 为了解决语言模型输出的变异性，我们在优化阶段和最终评估中为每个问题生成多个（通常为五个）答案。然后对得到的分数进行平均，从而提供对模型能力的更可靠评估。
模型间差异： 根据经验，我们发现为每个模型单独优化激发很重要，因为模型的最佳激发技术各不相同：有些对 few-shot 提示反应特别好，而另一些模型对温度设置等相当敏感。
广度与深度： 优化努力与评估广度之间存在显著的权衡。我们经常依赖以往经验中的启发式规则来有效平衡这一点。在以下情况下，我们会投入更多时间进行优化：出现新技术或工具；我们正在评估来自不熟悉系列的模型；或者初步测试表明能力可能超越先前的最先进水平。

4. 建立并优化自动评分器

我们问题的开放性和复杂性使得对回答进行评分具有挑战性，即使每个问题都有专家编写的指南。使用人类专家对所有回答进行评分成本过高且耗时，不切实际。为了提高评估的速度和广度，我们建立了自动评分系统，并使用少量回答上的人类专家评分进行校准。自动评分由 LLM 执行，该 LLM 被提示考虑问题和评分指南，为每个答案分配分数。我们在附录 A 中提供了一个评分器模型提示示例。

同样重要的是要认识到，即使是人类专家评分者也可能引入不准确性和偏见，给评分过程带来额外挑战。评估人类专家评分者的表现很困难，通常涉及对评分者给出的解释和分数进行人工分析。使用多位专家对相同回答进行多次评分可能有所帮助：分歧可以表明评分指南不佳或评分者表现不佳。使用尽可能多领域专业知识的专家也可能有帮助：例如，我们通常使用相关学科的博士专家。

在评估自动评分器的性能时，两个关键考虑因素是：

可靠性： 自动评分器与人类专家评分者的一致程度如何？
偏见： 自动评分器是否对人类回答或来自某些 LLM 的回答存在偏见？

通过监控偏见和可靠性，我们可以确保我们的自动评分器即使不完全可靠，也能在不同来源的回答之间保持公平。这使我们能够自信地使用不完美的自动评分器来比较不同语言模型与人类专家的相对性能。

衡量可靠性的一个有用指标是 Krippendorff's Alpha，这是统计学中广泛使用的评分者间信度度量。我们发现这比考虑准确率更有信息量，因为它非常适合有序数据。

为了衡量偏见，我们比较人类和不同 AI 系统之间的平均评分模式。例如，我们比较人类专家分配正确分数的比例与自动评分器分配正确分数的比例。与使用更主观评分的近期工作相比，我们尚未发现使用此指标时自动评分器对其自身输出存在正向偏见的证据。

一旦确定了评估自动评分器的指标，就可以对自动评分器进行优化。类似于对被评估模型进行能力激发时，创建验证/测试拆分对于确信自动评分器能够泛化到新回答非常重要。我们采用多种技术来优化自动评分器的性能，包括：

提示工程： 我们发现思维链和 few-shot 提示能显著提升自动评分器的性能。人工错误分析可用于识别自动评分器的问题，并为更新评分器提示提供信息。到目前为止，这种提示工程为我们自动评分器带来了最大的改进。
自一致性： 取多次评分重复的众数分数也可以提升性能，尽管会带来显著的推理成本。我们发现自一致性对性能的提升小于提示工程。五次重复通常足以提升性能，十次重复后收益急剧递减。
采样参数： 改变温度和使用 nucleus 采样也可能提升性能，尽管我们目前尚未看到优化这些参数带来的显著改进。

微调也可能进一步提升性能，但其成功与否取决于可用的微调数据。

评分器模型的优化应被视为一个迭代过程：在较弱模型回答上表现良好的自动评分器并不能保证在新模型上同样表现良好。我们通常会在新的 AI 系统（要么比我们之前评估过的 AI 系统能力显著更强，要么来自我们尚未评估过的新模型系列）上验证自动评分器的性能。在评估新的 AI 系统时，我们通常为每个问答评估从新 AI 系统生成 50 个回答的人类专家评分，并使用我们的可靠性和偏见指标与自动评分器的性能进行比较。性能不佳将需要在未来进一步优化自动评分器。

5. 获取人类基线

将 AI 系统的回答与人类群体的回答进行比较，对于将 AI 性能置于背景中至关重要。选择合适的人类基线测试者可以确保基线与我们关注的风险模型相关，而适当的激励和足够大的队列规模则能确保研究结果的稳健性。

选择： 你与哪些人类进行基准测试？为什么？根据你的目标，你可能会选择领域专家或新手，允许或禁止使用网络搜索，给予人类充足的时间或要求他们快速工作。例如，拥有充足时间和网络访问权限的专家可以作为“人类能力上限”，而时间压力下的新手可能更接近普通用户在没有 AI 系统的情况下完成任务的方式。专业知识等方面的细微差异以及上述因素的组合意味着有很多选择。

我们发现，与评估结果的“消费者”就人类基线的类型进行详细对齐，对于确定 AI 系统超越该基线是否应被解读为令人担忧非常有帮助。有时，除了人类基线之外，还需要额外的证据——例如，某种级别的指令（即使与专家提供的指令相当）是否有助于人们在现实任务中表现更好。

激励： 你如何鼓励人类参与者表现良好？奖励结构的设计方式会显著影响人类回答的质量。例如，按每个答案支付基本费率并额外支付每个正确答案的奖金，乍一看似乎合理，但我们发现，一旦问题看起来太难，有些人就会决定只输入一个简短（错误）的答案以进入下一个问题。与我们有长期合作关系的人或团体合作有助于在一定程度上缓解这些问题。对于大型实验，我们会对激励结构进行“红队测试”，询问同事他们将如何破坏这些结构以在不做我们要求参与者做的事情的情况下获得报酬。
队列规模： 如果评估的目标是确定 AI 系统是否在某个任务上显著优于人类，可以使用统计功效计算来确定所需的人类基线测试者数量。

展望未来：合作制定不断发展的标准

随着我们在问答评估工作中取得进展，很明显这是一个持续的过程。我们已经学到了很多，但还有更多需要探索和完善。我们将自己的工作视为一个更大的、不断发展的科学的一部分，并渴望与该领域的其他人合作。如果你想加入我们的团队，为前沿 AI 安全开发更有意义的评估，请考虑申请我们的空缺职位！

译自 UK AI Security Institute · 录于二〇二六年五月十七日