X · 研究者一手

评估 agent 的方法总结

@cwolferesearch I'm wrapping up a writeup on how to evaluate agents. The overvi…

二〇二六年五月十六日 · 英文原文

该综述评估了多个agent基准,包括Terminal-Bench、Tau-Bench、GAIA/GAIA-2(通用助手)、AgentCompany/WorkArena(知识工作)、OSWorld/OfficeBench/MobileBench(计算机使用)、MLE-Bench/PostTrainBench/MLGym(机器学习实验)、PaperBench(论文复现)、SpreadsheetBench(电子表格)、HIL-Bench(人在回路)及GDPval(经济价值任务)。研究关注LLM自主性提升后的可靠性衡量,引入校准概念,通过期望校准误差(ECE)评估模型置信度与准确率的一致性,并指出交叉熵训练易导致过度自信。

我正在撰写一篇关于如何评估 agent 的综述。概述部分以 Terminal-Bench 和 Tau-Bench 作为主要案例,但我也纳入了以下基准:

我遗漏了什么?请给我更多基准!

随着 LLM 获得更多自主性,近期研究更侧重于衡量模型/系统的可靠性(例如 Pass^K 指标或向用户暴露问题)。校准(我个人最喜欢的研究领域之一)是衡量和提升可靠性最有用的概念之一。

直观上,校准衡量的是模型是否只在正确时才自信。实践中,我们可以利用模型输出的概率(例如 LLM 的 token 概率)来衡量校准,这些概率可解释为置信度分数。理想情况下,预测的概率应与准确率的可能性完美相关。例如,如果 P(输出) = 0.5,那么该输出正确的概率应为 50%。

不幸的是,大多数现代神经网络并非如此。交叉熵目标的结构会激励过度自信。我们通过最大化正确预测的概率来优化训练目标。结果,无论预测正确与否,所有预测往往都以非常高的置信度做出。

为了衡量模型是否校准,我们可以使用期望校准误差(ECE)等指标。给定一组预测及其对应的置信度分数,我们根据置信度分数将预测分入多个桶,并检查每个桶内的准确率,从而计算 ECE:

ECE = \sum_{m=1}^M (|B_m| / N) * |acc(B_m) - conf(B_m)|

其中 M 是桶的数量,B_m 是桶 m 中的样本集,N 是总样本数,acc 和 conf 分别是桶内的准确率和置信度分数。

置信度校准是一个历史悠久的研究领域,专门研究如何改善神经网络的校准。作为起点,我建议阅读这篇论文:https://t.co/kraeGNJxvi

这是我一直以来最喜欢的论文之一,我很期待看到类似的想法如何应用于利用当今令人印象深刻的基础模型构建更可靠的系统。

译自 X · 研究者一手 · 录于 二〇二六年五月十六日