Hugging Face · Daily Papers

最后一篇人类撰写的论文：Agent-Native 研究成果

The Last Human-Written Paper: Agent-Native Research Artifacts

Jiachen Liu, Jiaxin Pei, Jintao Huang, Chenglei Si, Ao Qu, Xiangru Tang, Runyu Lu, Lichang Chen 等 37 位

来自 Stanford University

二〇二六年五月八日 · arXiv:2604.24658 · PDF · Code

摘要

科学出版将分支式、迭代式的研究过程压缩为线性叙事，丢弃了过程中发现的大部分内容。这种汇编带来两类结构性成本：Storytelling Tax，即为了适配线性叙事，失败实验、被否定的假设以及分支探索过程被舍弃；以及 Engineering Tax，即满足审稿人阅读需求的文字与满足 agent 执行需求的规格说明之间存在差距，导致关键实现细节未被写下。对于人类读者，这些成本尚可接受；但当 AI agent 必须理解、复现并扩展已发表工作时，它们就会成为关键问题。

我们提出 Agent-Native Research Artifact（ARA），这是一种 protocol，用以将叙事型论文替换为机器可执行的研究包，并围绕四个层次组织：科学逻辑、带有完整规格说明的可执行代码、保留被汇编过程丢弃之失败信息的探索图，以及将每个主张锚定到原始输出的证据。该生态由三种机制支撑：Live Research Manager，用于在常规开发过程中捕捉决策和死胡同；ARA Compiler，用于将既有 PDF 和 repo 转换为 ARA；以及 ARA-native review system，用于自动化客观检查，使人类审稿人能够专注于重要性、新颖性和判断品味。

在 PaperBench 和 RE-Bench 上，ARA 将问答准确率从 72.4% 提升到 93.7%，将复现成功率从 57.4% 提升到 64.4%。在 RE-Bench 的五个开放式扩展任务上，ARA 中保留的失败轨迹会加快进展，但也可能根据 agent 的能力，使一个能力较强的 agent 受限于既有运行记录的框架，难以跳出前人尝试的范围。