apple-ml-research

强化 Agent：面向工具调用 Agent 的推理时反馈

Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents

二〇二六年五月八日 · 英文原文

摘要

论文被 ACL 2026 第五届自然语言生成、评估与指标研讨会接收，提出将 tool-calling agent 的 trajectory 评估移入 inference 执行循环，由专门的 reviewer agent 在运行中检查工具选择、参数和作用域等问题，以支持实时纠偏。

本文被 ACL 2026 第五届自然语言生成、评估与指标研讨会接收。Tool-calling agent 的评估通常关注工具选择、参数准确性和作用域识别，但 LLM trajectory 评估本质上仍是事后进行的。由于与主动执行循环脱节，这类评估能够识别错误，而这些错误通常通过 prompt-tuning 或重新训练来处理；从根本上说，它们无法实时对 agent 进行纠偏。为弥合这一差距，我们将评估移入 inference 阶段的执行循环：一个专门的 reviewer agent 会评估……

译自 apple-ml-research · 录于二〇二六年五月八日