关于AI委托与长期可靠性近期研究的进一步说明

Further Notes on Our Recent Research on AI Delegation and Long-Horizon Reliability

二〇二六年五月十六日 · 英文原文

摘要

近期论文《当你委托LLM时，它们会损坏你的文档》评估了AI在长周期委托工作流中的可靠性，采用链式变换与逆变换任务及领域特定语义解析。结果显示，强SOTA模型在20次委托迭代后制品保真度退化约19%至34%，Python工作流退化率低于1%。DELEGATE-52基准作为诊断工具，聚焦扩展交互中的语义退化，而非任务成功率或用户满意度。微软研究院指出，生产系统可通过验证循环、编排和领域工具缓解这些影响，但可靠的长周期委托仍是开放挑战。

我们近期发表的论文《当你委托LLM时，它们会损坏你的文档》引发了关于AI系统在委托工作流中可靠性的讨论。我们感谢大家对此项工作的关注，并希望澄清论文中几个重要主张——包括其明确主张和未涉及的主张。本研究旨在为长周期委托与协作任务开发稳健的评估方法。更广泛而言，这项工作反映了我们持续努力理解强基准性能与某些现实世界任务之间差距的尝试。通过采用受控评估方法，我们考察了信息在这些扩展工作流中的保存程度。在这一受限设定下，我们观察到模型在重复编辑过程中可能出现保真度退化累积。但请注意，当前的生产系统可以通过验证循环、编排和领域特定工具来缓解这些影响。我们的目标并非反对在专业工作流中使用AI系统，而是指出现有系统需要进一步研究和工程改进，以使其成为更值得信赖的协作伙伴。该基准旨在作为检查委托模式的诊断工具，而非衡量整体模型能力、任务成功率或用户成果的指标。

主要结果

论文评估了一种我们称之为"委托工作"的特定交互模式——即用户将文档、电子表格、代码或结构化文件等重要制品交由AI系统进行多步修改，且步骤间人工验证有限。我们使用链式变换与逆变换任务，评估语义内容在扩展委托工作流中是否被准确保留。评估采用领域特定语义解析，聚焦于底层制品的有意义变化，而非表面格式或风格差异。因此，我们报告的错误对应底层语义内容的退化，但"损坏"的衡量标准并未包含任务完成度或用户满意度。采用这一方法，我们发现当前前沿模型在长周期工作流中可能引入稀疏但后果严重的错误，且这些错误可能在重复交互中累积。在评估的各类设定中，强SOTA模型在20次委托迭代后，制品保真度退化约19%至34%。值得注意的是，Python工作流在扩展委托交互中通常表现出更强的鲁棒性，平均退化率低于1%。

播客系列

《医疗领域的AI革命，再审视》与微软的Peter Lee一同探索AI如何影响医疗保健及其对医学未来的意义。立即收听（在新标签页中打开）

方法论局限

DELEGATE-52有意设计为长周期委托执行的压力测试。该基准评估系统在扩展的变换与逆变换序列中是否保持制品完整性。研究特别聚焦于步骤间人工干预有限的委托执行场景。它并未试图衡量现实世界AI部署的全貌——许多实际部署涉及更充分的监督、验证和工作流结构。论文还评估了具备工具使用能力（如Python执行和文件操作）的简化智能体框架。虽然该设置未能消除观察到的退化现象，但不应将其解读为针对特定工作流或企业领域优化的生产级系统的代表。

启示

我们认为这项工作的主要启示在于：可靠的长周期委托仍然是一个重要的开放研究与工程挑战。结果表明，仅凭强大的短周期基准性能，可能无法保证扩展工作流中可靠的委托执行。同时，这些发现不应被解读为AI系统在现实工作中缺乏实用价值的证据。在实践中，许多已部署的AI系统将模型与专用框架、编排层、检索系统、验证程序、记忆机制和人工监督相结合，旨在提高可靠性并交付有用的用户成果，尽管底层模型存在局限。我们预计，随着模型、工作流感知训练、记忆系统以及生产级智能体框架的持续改进，这些故障模式将随时间进一步减少。

（在新标签页中打开）

《关于AI委托与长周期可靠性近期研究的进一步说明》一文最初发表于微软研究院。

译自 Microsoft Research · 学术 · 录于二〇二六年五月十六日