基于编排轨迹的 LLM multi-agent 系统强化学习
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
随着 large language model(LLM)agent 从孤立的工具使用者演进为协同团队,reinforcement learning(RL)必须优化的不仅是个体 action,还包括任务如何生成、委派、通信、聚合以及停止。本文通过 orchestration traces 研究基于 LLM 的 multi-agent systems 中的 RL:orchestration traces 是时间交互图,其事件包括 sub-agent 生成、委派、通信、工具使用、返回、聚合和停止决策。
基于这一视角,我们识别出三个技术轴。第一,reward design 涵盖八类,包括用于并行加速、拆分正确性和聚合质量的 orchestration rewards。第二,reward 和 credit signals 可附着于从 token 到团队的八类承载 credit 或 signal 的单元;在我们整理的论文池中,显式的 counterfactual message-level credit 尤其稀缺。第三,orchestration learning 可分解为五个子决策:何时生成、委派给谁、如何通信、如何聚合,以及何时停止。在截至 2026 年 5 月 4 日整理的论文池中,我们没有发现针对停止决策的显式 RL 训练方法。
我们将学术方法与来自 Kimi Agent Swarm、OpenAI Codex 和 Anthropic Claude Code 的公开工业证据联系起来。由此呈现的规模差距,是公开报告的部署范围与开放学术评测范式之间的差距,而不是对工业训练 traces 的独立验证。我们在 https://github.com/xxzcc/awesome-llm-mas-rl 发布了相关 artifact,包括一个含 84 篇条目的带标签论文池、32 条记录的排除日志、脚本化语料统计,以及用于可重放 orchestration traces 的最小 JSON schema。