@cwolferesearch 我在读关于经济 benchmark 的文章(如 GDPval …
@cwolferesearch I was reading the writeup on economic benchmarks (e.g., GDPval …
文章比较 Epoch AI 的 RLI、GDPval、APEX-agents 等 agent benchmark:RLI 采样 Upwork 真实任务,GDPval 由专家构造,APEX-agents 加入噪声文件环境;三者输出格式从 Microsoft Office、文本到多媒体不等,影响 LLM 表现与 scaffold 需求。另提 MSL Gaia2 在动态、有噪声、多 agent 环境中评估。
昨晚我读了 epoch ai 关于经济类 benchmark(例如 GDPval 或 RLI)的文章,其中有一些关于如何为 agent 创建真实 benchmark 的实践启发:
- RLI 通过直接从 Upwork 采样合同工的真实任务来创建。这使 benchmark 中的任务非常真实。不过,与更标准的工作环境相比,这类合同任务往往也非常干净(也就是说,项目所需的所有 context 都以简洁的方式在项目描述 / 材料中提供)。
- 相比之下,GPDval 是由领域专家从零开始创建任务。这可能会在最终任务的真实程度上引入偏差,但也有一些好处(例如,通过 LLM-in-the-loop 方法控制难度)。
- APEX-agents 采用了介于两者之间的方法。benchmark 中的任务是经过 curated 的,但为任务提供的 environment 被有意设计得很杂乱——任务包中包含许多无关文件,模型必须学会在这些噪声中导航才能解决任务。总体上,APEX-agents 因此似乎比 GDPval 更难解决。
这些 benchmark 之间另一个很大的差异是输出格式:
- GDPval 要求模型输出一组 Microsoft office 文件。
- APEX-agents 因任务而异,但 90% 的任务是文本输出。
- RLI 要求复杂的多媒体输出(例如设计渲染图或 3D model),并且必须能由人类进行视觉检查。通常,这些输出会通过与人类参考解进行比较来评估。
在现代 LLM 中,RLI 的性能表现是最低的,这可能是由于这种真实的多媒体输出格式。该格式更真实 / 更多样,超出了 LLM 更容易处理的文本 / 文档输出范围。
不过,这种输出格式的复杂性也引入了对评估所用 scaffold 的依赖。简单来说,如果没有被授予解决任务所需的合适工具,模型可能会处于不利地位。而且,不同任务所需的工具可能差异很大,这会成为一个非常困难的 agent engineering 挑战。因此,这里存在一个取舍:
- 让 benchmark 相对于人类处理工作的方式更真实。
- 让 benchmark 过于复杂 / 多样,以至于无法引入标准 scaffold 来帮助 LLM 可靠地解决问题。
在这个领域,真实的 eval 可能需要为每个问题定制 scaffold,才能适当 / 公平地判断 LLM 的能力!这确实显示出,在 agentic 时代,eval 会变得多么复杂。
文章在这里:https://t.co/n11lckmvTM
来自 @xeophon 的工作很出色!
这里还有另一篇关于为 agent 创建真实 / 现代 eval 的好论文,方向略有不同:https://t.co/dHogPSRrBv
MSL 的 Gaia2 将 eval 放在真实的 agent environment 中。他们有意在 eval environment 中加入噪声、动态 / 演化的约束,甚至时间约束。agent 被迫消解歧义、与其他 agent 协作,等等。这是一个很好的参考,展示了静态 LLM benchmark 未来可能如何演进。