一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

ARIS:通过对抗式多 agent 协作实现自主研究

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

Ruofeng Yang, Yongcan Li, Shuai Li
来自 Shanghai Jiao Tong University
二〇二六年五月六日 · arXiv:2605.03042 · PDF · Code

本报告介绍 ARIS(Auto-Research-in-sleep),一个用于 autonomous research 的 open-source research harness,内容包括其架构、assurance 机制以及早期部署经验。基于 LLM 构建的 agent 系统,其性能同时取决于模型权重以及围绕模型的 harness;后者决定了哪些信息会被存储、检索并呈现给模型。对于长周期 research workflow,核心失效模式并不是显性的崩溃,而是看似合理却缺乏支撑的成功:一个长期运行的 agent 可能生成一些 claim,而这些 claim 的证据支持并不完整、被误报,或在无声中继承自 executor 的 framing。

因此,我们将 ARIS 设计为一个 research harness,在默认配置下通过跨模型的 adversarial collaboration 来协调 machine-learning research workflow:executor model 推动研究进展,而建议使用来自不同 model family 的 reviewer 来批评中间产物并要求修订。ARIS 包含三个架构层。execution layer 提供 65 个以上可复用的 Markdown-defined skills、通过 MCP 实现的 model integrations、用于迭代复用既有发现的持久化 research wiki,以及确定性的图表生成。orchestration layer 协调五个端到端 workflow,支持可调整的 effort settings,并可配置到 reviewer models 的 routing。

assurance layer 包含一个三阶段流程,用于检查 experimental claims 是否有证据支持:integrity verification、result-to-claim mapping,以及 claim auditing;其中 claim auditing 会将 manuscript statements 与 claim ledger 和 raw evidence 进行交叉核对。此外,该层还包括五轮 scientific-editing pipeline、mathematical-proof checks,以及对渲染后 PDF 的 visual inspection。一个原型 self-improvement loop 会记录 research traces 并提出 harness improvements,但这些改进只有在 reviewer 批准后才会被采纳。

译自 Hugging Face · Daily Papers · arXiv:2605.03042 · 录于 二〇二六年五月六日