一声棒喝,本不立文字
偏要著録,已是二义

allenai-blog

评估用于科学发现的 agent

Evaluating agents for scientific discovery

二〇二六年五月八日 · 英文原文

内容主题为评估用于科学发现的 agents,关注其在科学任务中的能力测量、实验设计、结果验证与基准构建,涉及 automated reasoning、tool use 和多步骤研究流程等方法。

评估用于科学发现的 agents

译自 allenai-blog · 录于 二〇二六年五月八日