Hugging Face · Daily Papers

高效计算机使用 agent 的步骤级优化

Step-level Optimization for Efficient Computer-use Agents

Jinbiao Wei, Kangqi Ni, Yilun Zhao, Guo Gan, Arman Cohan

来自 Yale NLP Lab

二〇二六年五月一日 · arXiv:2604.27151 · PDF · Code

摘要

computer-use agent 为通用软件自动化提供了一条有前景的路径，因为它们可以直接与任意图形用户界面交互，而不必依赖脆弱的、针对特定应用的集成。尽管近期在 benchmark 性能上取得了进展，但强大的 computer-use agent 在实践中仍然成本高、速度慢，因为大多数系统几乎在每个交互步骤都会调用大型 multimodal model。我们认为，对于长程 GUI 任务，这种对 compute 的均匀分配从根本上是低效的。这类轨迹具有高度异质性：许多步骤是例行性的，可以由更小、更便宜的 policy 可靠处理；而错误往往集中在相对少数的高风险时刻。在各类 computer-use benchmark 中，这些失败反复表现为两种形式：progress stall，即 agent 陷入循环、重复无效动作，或无法取得有意义的进展；以及 silent semantic drift，即 agent 在已经偏离用户真实目标之后，仍继续执行局部看似合理的动作。

为解决这种低效问题，我们提出了一种用于 computer-use agent 的 event-driven、step-level cascade：默认运行小型 policy，只有当轻量级 learned monitor 检测到风险升高时，才升级到更强的模型。我们的框架结合了两种互补信号：Stuck Monitor 从最近的 reasoning-action 历史中检测进展退化并触发恢复；Milestone Monitor 识别具有语义意义的检查点，在这些位置进行稀疏 verification 对捕捉 drift 最有信息量。这一设计将始终开启的 frontier-model inference 转变为在不断演化的交互过程中进行自适应、按需的 compute 分配。

该框架具有模块化和面向部署的特点：它可以叠加在现有 computer-use agent 之上，而无需改变底层 agent 架构，也无需重新训练大型模型。