HiBayES：用分层贝叶斯建模改进LLM评估

HiBayES: Improving LLM evaluation with hierarchical Bayesian modelling

二〇二六年五月十五日 · 英文原文

摘要

HiBayES是一个分层贝叶斯建模框架，由英国AI安全研究所提出，用于解决LLM评估中传统统计方法（如t检验）无法处理层级结构数据、小样本量和输出随机性的问题。该框架基于多层贝叶斯广义线性模型（GLM），在单个LLM性能评估、两个LLM比较及能力激发（如GAIA基准）三种场景下，相比传统方法提供了更稳健的不确定性量化和参数估计，并支持使用更小数据集降低评估成本。

准确评估先进大语言模型（LLM）的能力已变得日益困难。虽然历史上 LLM 是通过问答基准（benchmark）来评估的，但随着更复杂能力的发展，评估必须向智能体（agentic）和能力激发（capability elicitation）场景演进。这些高级评估涉及复杂场景和多种输入类型，能够以早期简单基准无法捕捉的方式测试模型能力。

面对这些层级结构复杂的数据集、小样本量以及 LLM 输出固有的随机性，传统的评估结果统计分析方法往往力不从心。这些新的多层、更复杂的任务需要更深入的分析、稳健的不确定性量化以及更细致的理解。我们的新论文介绍了 HiBayES：一个分层贝叶斯建模框架，旨在通过严谨的统计方法解决这些局限。

LLM 评估面临的挑战

AI 评估面临一个根本性挑战：随着 LLM 和智能体系统变得越来越复杂，对可靠、细致的基准和评估指标的需求急剧上升。准确评估模型能力并预测模型在真实用例中的行为，不仅对推动模型进一步发展至关重要，也对提升模型在部署中的安全性和防护措施至关重要。

挑战在于，对于日益复杂且具有层级结构的评估基准，要实现精确性、稳健性和严谨的不确定性量化。传统的统计方法在处理现代 AI 评估的复杂多维特性时往往力不从心。因此，迫切需要能够跨不同场景提供模型性能可靠洞察的先进方法。

使这一问题雪上加霜的是，在基准测试和复杂的智能体环境中全面测试性能的经济成本——解决单个任务往往需要花费数百美元的 token 费用。这种经济现实迫使我们必须处理更小的数据集，而这恰恰是传统数据分析方法不够稳健的地方。

传统分析方法

虽然依赖简单统计方法（如 t 检验）对预平均数据进行分析的传统方法，为回答基本问题提供了一种快速手段，但它们常常忽略了评估数据的复杂层级结构（图 1）。已知传统分析方法会过拟合评估数据，并且不能系统地量化数据层级各层的不确定性——这两点都会导致对模型能力的低估或高估。对于致力于部署安全有效 AI 系统的组织而言，这些统计缺陷构成了重大的进步障碍。

图 1

推文此图

下载图片

图 1. 层级嵌套评估数据示例。 评估数据通常跨多个层级获取：子领域和领域内项目/问题的重复，通常在同一组任务上评估多个 LLM。这种复杂结构在当前统计实践中常被忽视。

HiBayES：一个统计建模框架

HiBayES 通过引入一个基于分层（多层）贝叶斯广义线性模型（GLM）的灵活、稳健的统计建模框架，来解决这些挑战。该框架借鉴了自然科学和社会科学中的现代统计实践，能够在提供形式化不确定性量化的同时，实现对 AI 能力的细致、严谨估计。

该框架利用三个关键组件：

多层 GLM 来捕捉评估数据的层级性质和分布特性，
贝叶斯数据分析，用于在嵌套的层级数据结构中进行稳健的参数估计和不确定性量化，
使用信息准则进行形式化模型比较。

与传统方法不同，HiBayES 明确考虑了评估数据集的层级性质（图 1），从而能更准确地洞察模型在不同领域和复杂度层级上的性能。

实际应用与结果

我们在三种典型评估场景下测试了 HiBayES，并发现其相比传统方法具有显著优势*：

1. 单个 LLM 性能： 当评估一个 LLM 在多个项目数量不同的基准上的表现时，HiBayES 能准确判定性能差异，同时避免了传统 t 检验的陷阱——后者在处理不均匀样本量时常常遇到困难（需要数据填充或子采样），并可能导致效应膨胀，尤其是在计算未观测变量（如 LLM 整体性能）时（图 2）。

图 2

推文此图

下载图片

图 2. 森林图，显示后验均值、分布和 95% HPDI（使用 HiBayES 估计）。 此图突出显示了领域特定和整体性能（蓝色），指示了均值（点）周围后验分布的宽度（细线）和不确定性（粗线）。作为对比，还显示了每个领域（橙色）和整体（红色）的经验均值和标准误（SEM）。

2. 两个 LLM 比较： 当比较两个 LLM 在多个子领域上的性能时，HiBayES 提示的差异与传统统计方法（t 检验）发现的相似，但能以更细致的方式量化这些差异的大小和不确定性（图 3）。

图 3

推文此图

下载图片

图 3. 后验均值、分布和 95% HPDI（使用 HiBayES 估计）的森林图。此图聚焦于 LLM 层面、领域层面和子领域层面的效应，显示了均值（蓝点）周围后验分布的宽度（细线）和不确定性（粗线）。作为对比，还显示了每个 LLM、领域和子领域（橙色）的经验均值和 SEM。

3. 能力激发： 对于在包含不同难度任务的智能体基准（GAIA）上评估多个 LLM，HiBayES 有效处理了来自总是正确解决或从未正确解决的任务的数据。我们的分析结果突显了不同级别的 LLM 推理努力（通过提示或配置 LLM 投入更多“认知”资源和处理深度来解决问题）如何提升某些模型的性能（图 4）。

图 4

推文此图

下载图片

图 4. 智能体评估分析。A) 不同任务上的 GAIA 成功率——数据呈非对称和双峰分布。B) 使用 WAIC 进行的 GLM 比较。WAIC 值越高表示 GLM 对数据的拟合越好。推理 Beta-二项式 GLM 的拟合优于推理二项式 GLM 和零模型 GLM。C) 推理努力和任务难度对 4 个 LLM 性能影响的森林图，显示了后验均值、分布和 95% HPDI（蓝点表示均值，细线表示宽度，粗线表示不确定性）。

这些结果强调，即使在数据量少、复杂度高的场景下，使用 HiBayES 也能提供严谨的不确定性量化和稳健的参数估计。

实际效益

HiBayES 的实际意义超越了改进的统计方法。通过支持使用更小的数据集进行可靠评估，该框架有助于优化评估流程，在保持科学严谨性的同时，减少所需数据量并可能降低成本。

HiBayES 还能轻松扩展到比较多个 LLM 或基准，无需进行统计调整，从而提供全面可靠的评估，支持更安全、更有效的 AI 开发。这种方法将有助于防止可能阻碍模型开发和安全性进步的、基于错误数据驱动的决策。

展望未来

HiBayES 为更严谨的 AI 评估统计方法提供了基础构件。未来的扩展可能包括扩展预测能力以估计相关任务和领域之间的相关性，加深我们对 LLM 性能和能力结构的理解。该框架还可用于基于自动基准的发现，可靠地预测来自真实世界应用（如人类提升研究）的结果。

对于 AI 社区的研究人员和从业者，HiBayES 提供了一个即用型软件包，其中包含实施多层贝叶斯 GLM 的分步指南。

随着 AI 系统在能力和复杂性上持续进步，像 HiBayES 这样的框架将变得越来越重要，以确保我们的评估既科学合理又具有实际信息价值，最终支持开发更安全、更可靠、更可信的模型。

*请注意，本文和论文中报告的所有 LLM 结果均基于使用英国 AI 安全研究所的评估框架Inspect在公开可用的基准上获取的数据。因此，我们对模型开发者报告的 LLM 能力的完整性不作任何声明。

‍

译自 UK AI Security Institute · 录于二〇二六年五月十五日