Hugging Face · Daily Papers

X2SAM：图像和视频中的任意分割

X2SAM: Any Segmentation in Images and Videos

Hao Wang, Limeng Qiao, Chi Zhang, Lin Ma, Guanglu Wan, Xiangyuan Lan, Xiaodan Liang

来自 Sun Yat-sen University

二〇二六年五月六日 · arXiv:2605.00891 · PDF · Code

摘要

Multimodal Large Language Models（MLLMs）已经展现出较强的图像级视觉理解与推理能力，但其在图像和视频中的像素级感知能力仍然有限。SAM 系列等 foundation segmentation models 能够生成高质量 mask，但它们依赖低层视觉 prompt，无法原生理解复杂的对话式指令。现有的 segmentation MLLMs 缩小了这一差距，但通常专门面向图像或视频其中之一，并且很少在同一接口中同时支持文本 prompt 与视觉 prompt。

我们提出 X2SAM，一种统一的 segmentation MLLM，将 any-segmentation 能力从图像扩展到视频。给定对话式指令和视觉 prompt，X2SAM 将 LLM 与 Mask Memory 模块结合，后者存储受引导的视觉特征，用于生成时间上保持一致的视频 mask。同一套形式化方法支持图像和视频输入中的通用、open-vocabulary、referring、reasoning、grounded conversation generation、interactive，以及 visual grounded segmentation。

我们进一步引入 Video Visual Grounded（V-VGD）segmentation benchmark，用于评估模型能否基于交互式视觉 prompt 在视频中分割目标轨迹。通过在异构图像与视频数据集上的统一联合训练策略，X2SAM 在视频分割上取得了较强性能，在图像分割 benchmark 上保持竞争力，并保留了通用图像与视频 chat 能力。