一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@cwolferesearch 我在读关于经济 benchmark 的文章(如 GDPval …

@cwolferesearch I was reading the writeup on economic benchmarks (e.g., GDPval …

二〇二六年五月八日 · 英文原文

文章比较 Epoch AI 的 RLI、GDPval、APEX-agents 等 agent benchmark:RLI 采样 Upwork 真实任务,GDPval 由专家构造,APEX-agents 加入噪声文件环境;三者输出格式从 Microsoft Office、文本到多媒体不等,影响 LLM 表现与 scaffold 需求。另提 MSL Gaia2 在动态、有噪声、多 agent 环境中评估。

昨晚我读了 epoch ai 关于经济类 benchmark(例如 GDPval 或 RLI)的文章,其中有一些关于如何为 agent 创建真实 benchmark 的实践启发:

这些 benchmark 之间另一个很大的差异是输出格式:

在现代 LLM 中,RLI 的性能表现是最低的,这可能是由于这种真实的多媒体输出格式。该格式更真实 / 更多样,超出了 LLM 更容易处理的文本 / 文档输出范围。

不过,这种输出格式的复杂性也引入了对评估所用 scaffold 的依赖。简单来说,如果没有被授予解决任务所需的合适工具,模型可能会处于不利地位。而且,不同任务所需的工具可能差异很大,这会成为一个非常困难的 agent engineering 挑战。因此,这里存在一个取舍:

  1. 让 benchmark 相对于人类处理工作的方式更真实。
  2. 让 benchmark 过于复杂 / 多样,以至于无法引入标准 scaffold 来帮助 LLM 可靠地解决问题。

在这个领域,真实的 eval 可能需要为每个问题定制 scaffold,才能适当 / 公平地判断 LLM 的能力!这确实显示出,在 agentic 时代,eval 会变得多么复杂。

文章在这里:https://t.co/n11lckmvTM

来自 @xeophon 的工作很出色!

这里还有另一篇关于为 agent 创建真实 / 现代 eval 的好论文,方向略有不同:https://t.co/dHogPSRrBv

MSL 的 Gaia2 将 eval 放在真实的 agent environment 中。他们有意在 eval environment 中加入噪声、动态 / 演化的约束,甚至时间约束。agent 被迫消解歧义、与其他 agent 协作,等等。这是一个很好的参考,展示了静态 LLM benchmark 未来可能如何演进。

译自 X · 研究者一手 · 录于 二〇二六年五月八日