Hugging Face · Daily Papers

MMSkills:面向通用视觉智能体的多模态技能

MMSkills: Towards Multimodal Skills for General Visual Agents

Kangning Zhang, Shuai Shao, Qingyao Li, Jianghao Lin, Lingyue Fu, Shijian Wang, Wenxiang Jiao, Yuan Lu 等 11 位
来自 Shanghai Jiaotong University 1(NOT OFFICIAL)
二〇二六年五月十八日 · arXiv:2605.13527 · PDF · Code

可复用技能已成为提升智能体能力的关键基础,然而现有的大多数技能包主要将可复用行为编码为文本提示、可执行代码或学习到的例程。但对于视觉智能体而言,程序性知识本质上是多模态的:复用不仅取决于要执行什么操作,还取决于识别相关状态、解读进度或失败的视觉证据,以及决定下一步行动。我们将这一需求形式化为多模态程序性知识,并应对三个实际挑战:(I)多模态技能包应包含什么内容;(II)这类技能包如何从公开交互经验中获取;(III)智能体如何在推理时参考多模态证据,而不引入过多图像上下文或过度锚定于参考截图。我们提出MMSkills框架,用于表示、生成和使用可复用的多模态程序,以支持运行时视觉决策。每个MMSkill是一个紧凑的、状态条件化的包,将文本程序与运行时状态卡和多视角关键帧相结合。为构建这些技能包,我们开发了一个智能体轨迹到技能的生成器,通过工作流分组、程序归纳、视觉定位和元技能引导审核,将公开的非评估轨迹转化为可复用的多模态技能。在使用方面,我们引入了一种分支加载的多模态技能智能体:在临时分支中检查选定的状态卡和关键帧,与实时环境对齐,并提炼为结构化指导信息供主智能体使用。在GUI和基于游戏的视觉智能体基准测试上的实验表明,MMSkills能持续提升前沿和较小规模的多模态智能体,这表明外部多模态程序性知识可补充模型内部先验知识。

译自 Hugging Face · Daily Papers · arXiv:2605.13527 · 录于 二〇二六年五月十八日