MMSkills：面向通用视觉智能体的多模态技能

MMSkills: Towards Multimodal Skills for General Visual Agents

Kangning Zhang, Shuai Shao, Qingyao Li, Jianghao Lin, Lingyue Fu, Shijian Wang, Wenxiang Jiao, Yuan Lu 等 11 位

来自 Shanghai Jiaotong University 1(NOT OFFICIAL)

二〇二六年五月十八日 · arXiv:2605.13527 · PDF · Code

摘要

可复用技能已成为提升智能体能力的关键基础，然而现有的大多数技能包主要将可复用行为编码为文本提示、可执行代码或学习到的例程。但对于视觉智能体而言，程序性知识本质上是多模态的：复用不仅取决于要执行什么操作，还取决于识别相关状态、解读进度或失败的视觉证据，以及决定下一步行动。我们将这一需求形式化为多模态程序性知识，并应对三个实际挑战：（I）多模态技能包应包含什么内容；（II）这类技能包如何从公开交互经验中获取；（III）智能体如何在推理时参考多模态证据，而不引入过多图像上下文或过度锚定于参考截图。我们提出MMSkills框架，用于表示、生成和使用可复用的多模态程序，以支持运行时视觉决策。每个MMSkill是一个紧凑的、状态条件化的包，将文本程序与运行时状态卡和多视角关键帧相结合。为构建这些技能包，我们开发了一个智能体轨迹到技能的生成器，通过工作流分组、程序归纳、视觉定位和元技能引导审核，将公开的非评估轨迹转化为可复用的多模态技能。在使用方面，我们引入了一种分支加载的多模态技能智能体：在临时分支中检查选定的状态卡和关键帧，与实时环境对齐，并提炼为结构化指导信息供主智能体使用。在GUI和基于游戏的视觉智能体基准测试上的实验表明，MMSkills能持续提升前沿和较小规模的多模态智能体，这表明外部多模态程序性知识可补充模型内部先验知识。

译自 Hugging Face · Daily Papers · arXiv:2605.13527 · 录于二〇二六年五月十八日