LLM 裁判受审：评估自动评分器的新统计框架

LLM judges on trial: A new statistical framework to assess autograders

二〇二六年五月十五日 · 英文原文

摘要

一篇新论文提出使用贝叶斯广义线性模型（GLM）同时进行AI模型评估与自动评分器（LLM-as-judge）质量评估。GLM通过线性预测器隔离各因素（如人类与LLM评分器）的贡献，并支持二值、有序、计数等多种评分尺度。贝叶斯方法可处理数据噪声与有限样本下的不确定性。论文所有模型及可复现示例已在GitHub开源。

评估AI模型对于提升其性能以及确保其安全性至关重要。评估让我们能够比较模型在不同领域（如数学、编码或推理任务）的表现，并评估模型在实际应用场景中的实用性。同时，评估对于了解模型是否可能具备危险能力也很重要，例如协助——甚至自主完成——复杂的网络攻击，或自我复制以逃避人类监督和控制。

模型评估可以由人类进行——即向模型提示一个任务，然后由人类对其表现进行评分。但这种方法成本高昂且耗时。随着AI进展加速以及评估数量增加，研究人员试图通过让大语言模型（LLM）对模型输出进行评分来自动化这一过程。这些LLM评估器被称为自动评分器，或“LLM-as-judge”。

这引出了一个关键问题：我们能依赖自动评分器的判断吗？一些研究表明，它们表现出某些系统性偏差，这些偏差似乎与随机噪声不同。例如，它们倾向于对同一模型家族的输出给予更高评分。它们也可能偏好更长的输出，或具有特定风格或包含某些关键词的输出。这意味着，在我们可以放心地将自动评分器用于AI模型评估之前，我们需要针对当前具体任务评估_自动评分器本身_的可靠性。

如果我们能同时完成这两件事呢？在一篇新论文中，我们提出使用**贝叶斯广义线性模型（GLM）**来实现这一点。GLM允许研究人员使用自动评分器进行模型评估，同时评估这些自动评分器的质量。

这篇博客解释了为什么贝叶斯GLM在AI模型评估的背景下很有用。我们论文中讨论的所有统计模型都可以在GitHub上的开源包中找到。

为什么是GLM？

GLM是一种统计模型，它允许我们根据加权输入变量来预测结果。它使用一个链接函数将结果表示在适合我们数据属性的尺度上。使用贝叶斯方法会返回一个后验分布（一系列可能值及其各自概率），而不是点估计。

贝叶斯GLM对于LLM评估特别有用有几个原因。首先，它们将结果表示为加权和（称为线性预测器）的函数，形式如下：

Tweet This Image

Download Image

这意味着我们可以隔离每个因素对结果的贡献。例如，系数β₁可能代表使用人类评分器与LLM评分器的影响。

其次，GLM在各种评估设计中提供了灵活性，因为研究人员可以从不同的概率分布（二项分布、泊松分布等）中选择，并搭配适当的链接函数来建模目标变量的结构。这一点很重要，因为LLM评估可以根据多种尺度进行评分，例如：

·二值（模型通过还是失败？）

·有序（这个回答在1-10分尺度上有多连贯？）

·计数（这个回答包含多少个错误？）

最后，我们使用贝叶斯方法（尽管其他方法也是可能的），因为它允许我们考虑不确定性——尤其是在数据嘈杂或有限的情况下，这在LLM评估中并不少见！这样，我们的模型会返回一个可能值的分布，而不是过度承诺于特定的点估计。

调整GLM模型

使用GLM进行自动评分器评估的核心优势在于，它们可以被修改以解决关于自动评分器性能的广泛问题。下表包含了一些示例及其对应的GLM实现：

Tweet This Image

Download Image

在我们的完整论文中，我们逐步介绍了该框架如何在实践中应用的几个说明性示例。

我们希望这个框架能对使用自动评分器进行AI评估的研究人员有所帮助！我们已将论文中呈现的所有模型，以及所有示例的可复现笔记本，在GitHub上提供。

译自 UK AI Security Institute · 录于二〇二六年五月十五日