X · 研究者一手

@cwolferesearch 我在读关于经济 benchmark 的文章（如 GDPval …

@cwolferesearch I was reading the writeup on economic benchmarks (e.g., GDPval …

二〇二六年五月八日 · 英文原文

摘要

文章比较 Epoch AI 的 RLI、GDPval、APEX-agents 等 agent benchmark：RLI 采样 Upwork 真实任务，GDPval 由专家构造，APEX-agents 加入噪声文件环境；三者输出格式从 Microsoft Office、文本到多媒体不等，影响 LLM 表现与 scaffold 需求。另提 MSL Gaia2 在动态、有噪声、多 agent 环境中评估。

昨晚我读了 epoch ai 关于经济类 benchmark（例如 GDPval 或 RLI）的文章，其中有一些关于如何为 agent 创建真实 benchmark 的实践启发：

RLI 通过直接从 Upwork 采样合同工的真实任务来创建。这使 benchmark 中的任务非常真实。不过，与更标准的工作环境相比，这类合同任务往往也非常干净（也就是说，项目所需的所有 context 都以简洁的方式在项目描述 / 材料中提供）。
相比之下，GPDval 是由领域专家从零开始创建任务。这可能会在最终任务的真实程度上引入偏差，但也有一些好处（例如，通过 LLM-in-the-loop 方法控制难度）。
APEX-agents 采用了介于两者之间的方法。benchmark 中的任务是经过 curated 的，但为任务提供的 environment 被有意设计得很杂乱——任务包中包含许多无关文件，模型必须学会在这些噪声中导航才能解决任务。总体上，APEX-agents 因此似乎比 GDPval 更难解决。

这些 benchmark 之间另一个很大的差异是输出格式：

GDPval 要求模型输出一组 Microsoft office 文件。
APEX-agents 因任务而异，但 90% 的任务是文本输出。
RLI 要求复杂的多媒体输出（例如设计渲染图或 3D model），并且必须能由人类进行视觉检查。通常，这些输出会通过与人类参考解进行比较来评估。

在现代 LLM 中，RLI 的性能表现是最低的，这可能是由于这种真实的多媒体输出格式。该格式更真实 / 更多样，超出了 LLM 更容易处理的文本 / 文档输出范围。

不过，这种输出格式的复杂性也引入了对评估所用 scaffold 的依赖。简单来说，如果没有被授予解决任务所需的合适工具，模型可能会处于不利地位。而且，不同任务所需的工具可能差异很大，这会成为一个非常困难的 agent engineering 挑战。因此，这里存在一个取舍：

让 benchmark 相对于人类处理工作的方式更真实。
让 benchmark 过于复杂 / 多样，以至于无法引入标准 scaffold 来帮助 LLM 可靠地解决问题。

在这个领域，真实的 eval 可能需要为每个问题定制 scaffold，才能适当 / 公平地判断 LLM 的能力！这确实显示出，在 agentic 时代，eval 会变得多么复杂。

文章在这里：https://t.co/n11lckmvTM

来自 @xeophon 的工作很出色！

这里还有另一篇关于为 agent 创建真实 / 现代 eval 的好论文，方向略有不同：https://t.co/dHogPSRrBv

MSL 的 Gaia2 将 eval 放在真实的 agent environment 中。他们有意在 eval environment 中加入噪声、动态 / 演化的约束，甚至时间约束。agent 被迫消解歧义、与其他 agent 协作，等等。这是一个很好的参考，展示了静态 LLM benchmark 未来可能如何演进。

译自 X · 研究者一手 · 录于二〇二六年五月八日