Video2GUI：合成大规模交互轨迹用于通用GUI Agent预训练

Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

Weimin Xiong, Shuhao Gu, Bowen Ye, Zihao Yue, Lei Li, Feifan Song, Sujian Li, Hao Tian

来自 Peking University

二〇二六年五月二十一日 · arXiv:2605.14747 · PDF · Code

摘要

多模态大语言模型的最新进展推动了图形用户界面（GUI）智能体的研究兴趣，但其泛化能力仍受限于缺乏覆盖多样化真实应用的大规模训练数据。现有数据集高度依赖昂贵的人工标注，且通常局限于狭窄领域。为解决这一挑战，我们提出Video2GUI——一个全自动框架，可直接从未标注的互联网视频中提取带锚点的GUI交互轨迹。Video2GUI采用由粗到精的过滤策略，识别高质量GUI教程视频并将其转化为结构化智能体轨迹。将该流程应用于5亿条视频元数据后，我们构建了WildGUI——一个包含超过1200万条交互轨迹的大规模数据集，覆盖1500余个应用和网站。在WildGUI上预训练Qwen2.5-VL和Mimo-VL后，模型在多个GUI锚定与动作基准测试中取得5-20%的持续提升，达到或超越当前最优性能。我们将开源WildGUI数据集和Video2GUI流程，以支持GUI智能体的未来研究。

译自 Hugging Face · Daily Papers · arXiv:2605.14747 · 录于二〇二六年五月二十一日