一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

高效计算机使用 agent 的步骤级优化

Step-level Optimization for Efficient Computer-use Agents

Jinbiao Wei, Kangqi Ni, Yilun Zhao, Guo Gan, Arman Cohan
来自 Yale NLP Lab
二〇二六年五月一日 · arXiv:2604.27151 · PDF · Code

computer-use agent 为通用软件自动化提供了一条有前景的路径,因为它们可以直接与任意图形用户界面交互,而不必依赖脆弱的、针对特定应用的集成。尽管近期在 benchmark 性能上取得了进展,但强大的 computer-use agent 在实践中仍然成本高、速度慢,因为大多数系统几乎在每个交互步骤都会调用大型 multimodal model。我们认为,对于长程 GUI 任务,这种对 compute 的均匀分配从根本上是低效的。这类轨迹具有高度异质性:许多步骤是例行性的,可以由更小、更便宜的 policy 可靠处理;而错误往往集中在相对少数的高风险时刻。在各类 computer-use benchmark 中,这些失败反复表现为两种形式:progress stall,即 agent 陷入循环、重复无效动作,或无法取得有意义的进展;以及 silent semantic drift,即 agent 在已经偏离用户真实目标之后,仍继续执行局部看似合理的动作。

为解决这种低效问题,我们提出了一种用于 computer-use agent 的 event-driven、step-level cascade:默认运行小型 policy,只有当轻量级 learned monitor 检测到风险升高时,才升级到更强的模型。我们的框架结合了两种互补信号:Stuck Monitor 从最近的 reasoning-action 历史中检测进展退化并触发恢复;Milestone Monitor 识别具有语义意义的检查点,在这些位置进行稀疏 verification 对捕捉 drift 最有信息量。这一设计将始终开启的 frontier-model inference 转变为在不断演化的交互过程中进行自适应、按需的 compute 分配。

该框架具有模块化和面向部署的特点:它可以叠加在现有 computer-use agent 之上,而无需改变底层 agent 架构,也无需重新训练大型模型。

译自 Hugging Face · Daily Papers · arXiv:2604.27151 · 录于 二〇二六年五月一日