X · 研究者一手

LLM自主性增强，最新研究聚焦…

@cwolferesearch As LLMs have gained more autonomy, recent research has focused …

二〇二六年五月十三日 · 英文原文

摘要

大语言模型在获得更多自主性后，其可靠性度量（如Pass^K指标）受到关注。校准（calibration）是衡量模型是否仅在正确时表现出高置信度的概念，可通过模型输出概率作为置信度分数来度量。理想情况下预测概率应与准确率完美相关，但多数神经网络因交叉熵目标函数结构而过度自信。期望校准误差（ECE）是常用评估指标，通过按置信度分箱并比较箱内准确率与置信度来计算。置信度校准是改进神经网络校准的历史研究领域，相关论文（https://t.co/kraeGNJxvi）可作为入门推荐。

随着大语言模型获得更多自主性，近期研究愈发关注模型/系统的可靠性度量（例如 Pass^K 指标或向用户暴露问题）。校准（我个人最钟爱的研究方向之一）是衡量与提升可靠性最实用的概念之一。

直观而言，校准衡量的是模型是否仅在正确时才表现出高置信度。实践中，我们可以利用模型输出的概率（例如大语言模型的 token 概率）作为置信度分数来度量校准。理想情况下，预测概率应与准确率完美相关：若 P(输出) = 0.5，则该输出正确的概率应为 50%。

遗憾的是，多数现代神经网络并非如此。交叉熵目标函数的结构会激励过度自信——我们通过最大化正确预测的概率来优化训练目标，导致所有预测（无论正确与否）都倾向于以极高置信度输出。

要衡量模型是否校准，可使用期望校准误差（ECE）等指标。给定一组带置信度分数的预测，我们按置信度将预测分箱，并检查每个箱内的准确率：

ECE = \sum_{m=1}^M (|B_m| / N) * |acc(B_m) - conf(B_m)|

其中 M 为箱数，B_m 为第 m 箱的样本集，N 为总样本数，acc/conf 为箱内准确率与置信度。

置信度校准是一个历史悠久的研究领域，专门探讨如何改进神经网络的校准。作为入门，我推荐阅读这篇论文：https://t.co/kraeGNJxvi

这是我个人最钟爱的论文之一，我十分期待看到类似思想如何应用于当今强大的基础模型，构建更可靠的系统。

译自 X · 研究者一手 · 录于二〇二六年五月十三日