一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

AcademiClaw:当学生为 AI agent 设定挑战

AcademiClaw: When Students Set Challenges for AI Agents

Junjie Yu, Pengrui Lu, Weiye Si, Hongliang Lu, Jiabao Wu, Kaiwen Tao, Kun Wang, Lingyu Yang 等 78 位
二〇二六年五月五日 · arXiv:2605.02661 · PDF · Code

OpenClaw 生态中的 benchmark 迄今只评估 assistant 级任务,使 OpenClaw 的学术级能力基本未得到考察。我们提出 AcademiClaw,这是一个双语 benchmark,包含 80 个复杂的 long-horizon 任务,直接来源于大学生真实的学术工作流——作业、研究项目、竞赛和个人项目——这些任务是他们认为当前 AI agent 无法有效解决的。最终任务集从学生提交的 230 个候选任务中经严格专家评审筛选而来,覆盖 25+ 个专业领域,从奥林匹克级数学和语言学问题,到需要大量 GPU 资源的 reinforcement learning 和 full-stack 系统 debugging,其中 16 个任务需要执行 CUDA GPU。

每个任务都在隔离的 Docker sandbox 中执行,并通过结合六种互补技术的多维 rubric 按任务完成情况评分;独立的五类 safety audit 则提供额外的行为分析。对六个 frontier model 的实验显示,即使表现最佳的模型也只有 55% 的通过率。进一步分析揭示了不同任务领域之间清晰的能力边界、模型之间相异的行为策略,以及 token 消耗与输出质量之间的脱节;这些结果提供了聚合指标之外的细粒度诊断信号。

我们希望 AcademiClaw 及其开源数据和代码能成为 OpenClaw 社区的有用资源,推动 agent 在真实世界学术需求的完整范围内变得更有能力、更通用。所有数据和代码可在 https://github.com/GAIR-NLP/AcademiClaw 获取。

译自 Hugging Face · Daily Papers · arXiv:2605.02661 · 录于 二〇二六年五月五日