评估 agent 的方法总结

@cwolferesearch I'm wrapping up a writeup on how to evaluate agents. The overvi…

二〇二六年五月十六日 · 英文原文

摘要

该综述评估了多个agent基准，包括Terminal-Bench、Tau-Bench、GAIA/GAIA-2（通用助手）、AgentCompany/WorkArena（知识工作）、OSWorld/OfficeBench/MobileBench（计算机使用）、MLE-Bench/PostTrainBench/MLGym（机器学习实验）、PaperBench（论文复现）、SpreadsheetBench（电子表格）、HIL-Bench（人在回路）及GDPval（经济价值任务）。研究关注LLM自主性提升后的可靠性衡量，引入校准概念，通过期望校准误差（ECE）评估模型置信度与准确率的一致性，并指出交叉熵训练易导致过度自信。

我正在撰写一篇关于如何评估 agent 的综述。概述部分以 Terminal-Bench 和 Tau-Bench 作为主要案例，但我也纳入了以下基准：

GAIA 和 GAIA-2 (https://t.co/ED1jVSPlWL)：通用助手基准，要求推理、网页浏览、工具使用以及处理多模态数据。
AgentCompany (https://t.co/wobaF3YhB7)：知识工作基准，使用 agent 模拟一家小型软件公司，通过浏览信息、编写代码和相互交流来完成任务。
WorkArena (https://t.co/cNjVl6mI70)：知识工作基准，评估 agent 解决来自 ServiceNow 的企业软件工作流的能力。
OSWorld (https://t.co/yvUuqPFIyH)：计算机使用基准，测试 agent 在真实桌面环境中解决常见任务的能力。此外还有 OfficeBench 和 MobileBench 等其他计算机使用基准。
MLE-Bench (https://t.co/8tufE0drqE)：自主实验基准，测试 agent 解决 Kaggle 机器学习问题的能力。其他机器学习 agent 基准还包括 PostTrainBench 和 MLGym。
PaperBench (https://t.co/HKJOoYJC2S)：机器学习基准，测试 agent 从 arxiv 复现 AI 研究论文的能力。
SpreadsheetBench (https://t.co/dHhFK86uWm)：基于 Excel 的基准，测试 agent 执行各种电子表格操作的能力。
HIL-Bench (https://t.co/nLXj9zbxVX)：人在回路中的基准，评估 agent 是否能决定何时向人类询问以澄清模糊的任务说明。
GDPval (https://t.co/sceXv73o11)：现实基准，测试 agent 解决各类具有经济价值任务的能力。

我遗漏了什么？请给我更多基准！

随着 LLM 获得更多自主性，近期研究更侧重于衡量模型/系统的可靠性（例如 Pass^K 指标或向用户暴露问题）。校准（我个人最喜欢的研究领域之一）是衡量和提升可靠性最有用的概念之一。

直观上，校准衡量的是模型是否只在正确时才自信。实践中，我们可以利用模型输出的概率（例如 LLM 的 token 概率）来衡量校准，这些概率可解释为置信度分数。理想情况下，预测的概率应与准确率的可能性完美相关。例如，如果 P(输出) = 0.5，那么该输出正确的概率应为 50%。

不幸的是，大多数现代神经网络并非如此。交叉熵目标的结构会激励过度自信。我们通过最大化正确预测的概率来优化训练目标。结果，无论预测正确与否，所有预测往往都以非常高的置信度做出。

为了衡量模型是否校准，我们可以使用期望校准误差（ECE）等指标。给定一组预测及其对应的置信度分数，我们根据置信度分数将预测分入多个桶，并检查每个桶内的准确率，从而计算 ECE：

ECE = \sum_{m=1}^M (|B_m| / N) * |acc(B_m) - conf(B_m)|

其中 M 是桶的数量，B_m 是桶 m 中的样本集，N 是总样本数，acc 和 conf 分别是桶内的准确率和置信度分数。

置信度校准是一个历史悠久的研究领域，专门研究如何改善神经网络的校准。作为起点，我建议阅读这篇论文：https://t.co/kraeGNJxvi

这是我一直以来最喜欢的论文之一，我很期待看到类似的想法如何应用于利用当今令人印象深刻的基础模型构建更可靠的系统。

译自 X · 研究者一手 · 录于二〇二六年五月十六日