UK AI Security Institute

LLM 裁判受审:评估自动评分器的新统计框架

LLM judges on trial: A new statistical framework to assess autograders

二〇二六年五月十五日 · 英文原文

一篇新论文提出使用贝叶斯广义线性模型(GLM)同时进行AI模型评估与自动评分器(LLM-as-judge)质量评估。GLM通过线性预测器隔离各因素(如人类与LLM评分器)的贡献,并支持二值、有序、计数等多种评分尺度。贝叶斯方法可处理数据噪声与有限样本下的不确定性。论文所有模型及可复现示例已在GitHub开源。

评估AI模型对于提升其性能以及确保其安全性至关重要。评估让我们能够比较模型在不同领域(如数学、编码或推理任务)的表现,并评估模型在实际应用场景中的实用性。同时,评估对于了解模型是否可能具备危险能力也很重要,例如协助——甚至自主完成——复杂的网络攻击,或自我复制以逃避人类监督和控制。

模型评估可以由人类进行——即向模型提示一个任务,然后由人类对其表现进行评分。但这种方法成本高昂且耗时。随着AI进展加速以及评估数量增加,研究人员试图通过让大语言模型(LLM)对模型输出进行评分来自动化这一过程。这些LLM评估器被称为自动评分器,或“LLM-as-judge”。

这引出了一个关键问题:我们能依赖自动评分器的判断吗?一些研究表明,它们表现出某些系统性偏差,这些偏差似乎与随机噪声不同。例如,它们倾向于对同一模型家族的输出给予更高评分。它们也可能偏好更长的输出,或具有特定风格或包含某些关键词的输出。这意味着,在我们可以放心地将自动评分器用于AI模型评估之前,我们需要针对当前具体任务评估_自动评分器本身_的可靠性。

如果我们能同时完成这两件事呢?在一篇新论文中,我们提出使用**贝叶斯广义线性模型(GLM)**来实现这一点。GLM允许研究人员使用自动评分器进行模型评估,同时评估这些自动评分器的质量。

这篇博客解释了为什么贝叶斯GLM在AI模型评估的背景下很有用。我们论文中讨论的所有统计模型都可以在GitHub上的开源包中找到。

为什么是GLM?

GLM是一种统计模型,它允许我们根据加权输入变量来预测结果。它使用一个链接函数将结果表示在适合我们数据属性的尺度上。使用贝叶斯方法会返回一个后验分布(一系列可能值及其各自概率),而不是点估计。

贝叶斯GLM对于LLM评估特别有用有几个原因。首先,它们将结果表示为加权和(称为线性预测器)的函数,形式如下:

Image 1

Tweet This Image

Download Image

这意味着我们可以隔离每个因素对结果的贡献。例如,系数β₁可能代表使用人类评分器与LLM评分器的影响。

其次,GLM在各种评估设计中提供了灵活性,因为研究人员可以从不同的概率分布(二项分布、泊松分布等)中选择,并搭配适当的链接函数来建模目标变量的结构。这一点很重要,因为LLM评估可以根据多种尺度进行评分,例如:

·二值(模型通过还是失败?)

·有序(这个回答在1-10分尺度上有多连贯?)

·计数(这个回答包含多少个错误?)

最后,我们使用贝叶斯方法(尽管其他方法也是可能的),因为它允许我们考虑不确定性——尤其是在数据嘈杂或有限的情况下,这在LLM评估中并不少见!这样,我们的模型会返回一个可能值的分布,而不是过度承诺于特定的点估计。

调整GLM模型

使用GLM进行自动评分器评估的核心优势在于,它们可以被修改以解决关于自动评分器性能的广泛问题。下表包含了一些示例及其对应的GLM实现:

Image 2

Tweet This Image

Download Image

在我们的完整论文中,我们逐步介绍了该框架如何在实践中应用的几个说明性示例。

我们希望这个框架能对使用自动评分器进行AI评估的研究人员有所帮助!我们已将论文中呈现的所有模型,以及所有示例的可复现笔记本在GitHub上提供

译自 UK AI Security Institute · 录于 二〇二六年五月十五日