Hugging Face · Daily Papers

基于编排轨迹的 LLM multi-agent 系统强化学习

Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

Chenchen Zhang

二〇二六年五月六日 · arXiv:2605.02801 · PDF · Code

摘要

随着 large language model（LLM）agent 从孤立的工具使用者演进为协同团队，reinforcement learning（RL）必须优化的不仅是个体 action，还包括任务如何生成、委派、通信、聚合以及停止。本文通过 orchestration traces 研究基于 LLM 的 multi-agent systems 中的 RL：orchestration traces 是时间交互图，其事件包括 sub-agent 生成、委派、通信、工具使用、返回、聚合和停止决策。

基于这一视角，我们识别出三个技术轴。第一，reward design 涵盖八类，包括用于并行加速、拆分正确性和聚合质量的 orchestration rewards。第二，reward 和 credit signals 可附着于从 token 到团队的八类承载 credit 或 signal 的单元；在我们整理的论文池中，显式的 counterfactual message-level credit 尤其稀缺。第三，orchestration learning 可分解为五个子决策：何时生成、委派给谁、如何通信、如何聚合，以及何时停止。在截至 2026 年 5 月 4 日整理的论文池中，我们没有发现针对停止决策的显式 RL 训练方法。

我们将学术方法与来自 Kimi Agent Swarm、OpenAI Codex 和 Anthropic Claude Code 的公开工业证据联系起来。由此呈现的规模差距，是公开报告的部署范围与开放学术评测范式之间的差距，而不是对工业训练 traces 的独立验证。我们在 https://github.com/xxzcc/awesome-llm-mas-rl 发布了相关 artifact，包括一个含 84 篇条目的带标签论文池、32 条记录的排除日志、脚本化语料统计，以及用于可重放 orchestration traces 的最小 JSON schema。