Hugging Face · Daily Papers

ARIS：通过对抗式多 agent 协作实现自主研究

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

Ruofeng Yang, Yongcan Li, Shuai Li

来自 Shanghai Jiao Tong University

二〇二六年五月六日 · arXiv:2605.03042 · PDF · Code

摘要

本报告介绍 ARIS（Auto-Research-in-sleep），一个用于 autonomous research 的 open-source research harness，内容包括其架构、assurance 机制以及早期部署经验。基于 LLM 构建的 agent 系统，其性能同时取决于模型权重以及围绕模型的 harness；后者决定了哪些信息会被存储、检索并呈现给模型。对于长周期 research workflow，核心失效模式并不是显性的崩溃，而是看似合理却缺乏支撑的成功：一个长期运行的 agent 可能生成一些 claim，而这些 claim 的证据支持并不完整、被误报，或在无声中继承自 executor 的 framing。

因此，我们将 ARIS 设计为一个 research harness，在默认配置下通过跨模型的 adversarial collaboration 来协调 machine-learning research workflow：executor model 推动研究进展，而建议使用来自不同 model family 的 reviewer 来批评中间产物并要求修订。ARIS 包含三个架构层。execution layer 提供 65 个以上可复用的 Markdown-defined skills、通过 MCP 实现的 model integrations、用于迭代复用既有发现的持久化 research wiki，以及确定性的图表生成。orchestration layer 协调五个端到端 workflow，支持可调整的 effort settings，并可配置到 reviewer models 的 routing。

assurance layer 包含一个三阶段流程，用于检查 experimental claims 是否有证据支持：integrity verification、result-to-claim mapping，以及 claim auditing；其中 claim auditing 会将 manuscript statements 与 claim ledger 和 raw evidence 进行交叉核对。此外，该层还包括五轮 scientific-editing pipeline、mathematical-proof checks，以及对渲染后 PDF 的 visual inspection。一个原型 self-improvement loop 会记录 research traces 并提出 harness improvements，但这些改进只有在 reviewer 批准后才会被采纳。