一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

LLM自主性增强,最新研究聚焦…

@cwolferesearch As LLMs have gained more autonomy, recent research has focused …

二〇二六年五月十三日 · 英文原文

大语言模型在获得更多自主性后,其可靠性度量(如Pass^K指标)受到关注。校准(calibration)是衡量模型是否仅在正确时表现出高置信度的概念,可通过模型输出概率作为置信度分数来度量。理想情况下预测概率应与准确率完美相关,但多数神经网络因交叉熵目标函数结构而过度自信。期望校准误差(ECE)是常用评估指标,通过按置信度分箱并比较箱内准确率与置信度来计算。置信度校准是改进神经网络校准的历史研究领域,相关论文(https://t.co/kraeGNJxvi)可作为入门推荐。

随着大语言模型获得更多自主性,近期研究愈发关注模型/系统的可靠性度量(例如 Pass^K 指标或向用户暴露问题)。校准(我个人最钟爱的研究方向之一)是衡量与提升可靠性最实用的概念之一。

直观而言,校准衡量的是模型是否仅在正确时才表现出高置信度。实践中,我们可以利用模型输出的概率(例如大语言模型的 token 概率)作为置信度分数来度量校准。理想情况下,预测概率应与准确率完美相关:若 P(输出) = 0.5,则该输出正确的概率应为 50%。

遗憾的是,多数现代神经网络并非如此。交叉熵目标函数的结构会激励过度自信——我们通过最大化正确预测的概率来优化训练目标,导致所有预测(无论正确与否)都倾向于以极高置信度输出。

要衡量模型是否校准,可使用期望校准误差(ECE)等指标。给定一组带置信度分数的预测,我们按置信度将预测分箱,并检查每个箱内的准确率:

ECE = \sum_{m=1}^M (|B_m| / N) * |acc(B_m) - conf(B_m)|

其中 M 为箱数,B_m 为第 m 箱的样本集,N 为总样本数,acc/conf 为箱内准确率与置信度。

置信度校准是一个历史悠久的研究领域,专门探讨如何改进神经网络的校准。作为入门,我推荐阅读这篇论文:https://t.co/kraeGNJxvi

这是我个人最钟爱的论文之一,我十分期待看到类似思想如何应用于当今强大的基础模型,构建更可靠的系统。

译自 X · 研究者一手 · 录于 二〇二六年五月十三日