Hugging Face · Daily Papers

Video2GUI:合成大规模交互轨迹用于通用GUI Agent预训练

Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

Weimin Xiong, Shuhao Gu, Bowen Ye, Zihao Yue, Lei Li, Feifan Song, Sujian Li, Hao Tian
来自 Peking University
二〇二六年五月二十一日 · arXiv:2605.14747 · PDF · Code

多模态大语言模型的最新进展推动了图形用户界面(GUI)智能体的研究兴趣,但其泛化能力仍受限于缺乏覆盖多样化真实应用的大规模训练数据。现有数据集高度依赖昂贵的人工标注,且通常局限于狭窄领域。为解决这一挑战,我们提出Video2GUI——一个全自动框架,可直接从未标注的互联网视频中提取带锚点的GUI交互轨迹。Video2GUI采用由粗到精的过滤策略,识别高质量GUI教程视频并将其转化为结构化智能体轨迹。将该流程应用于5亿条视频元数据后,我们构建了WildGUI——一个包含超过1200万条交互轨迹的大规模数据集,覆盖1500余个应用和网站。在WildGUI上预训练Qwen2.5-VL和Mimo-VL后,模型在多个GUI锚定与动作基准测试中取得5-20%的持续提升,达到或超越当前最优性能。我们将开源WildGUI数据集和Video2GUI流程,以支持GUI智能体的未来研究。

译自 Hugging Face · Daily Papers · arXiv:2605.14747 · 录于 二〇二六年五月二十一日