apple-ml-research
强化 Agent:面向工具调用 Agent 的推理时反馈
Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents
摘要
论文被 ACL 2026 第五届自然语言生成、评估与指标研讨会接收,提出将 tool-calling agent 的 trajectory 评估移入 inference 执行循环,由专门的 reviewer agent 在运行中检查工具选择、参数和作用域等问题,以支持实时纠偏。
本文被 ACL 2026 第五届自然语言生成、评估与指标研讨会接收。Tool-calling agent 的评估通常关注工具选择、参数准确性和作用域识别,但 LLM trajectory 评估本质上仍是事后进行的。由于与主动执行循环脱节,这类评估能够识别错误,而这些错误通常通过 prompt-tuning 或重新训练来处理;从根本上说,它们无法实时对 agent 进行纠偏。为弥合这一差距,我们将评估移入 inference 阶段的执行循环:一个专门的 reviewer agent 会评估……
译自 apple-ml-research · 录于 二〇二六年五月八日