X2SAM:图像和视频中的任意分割
X2SAM: Any Segmentation in Images and Videos
Multimodal Large Language Models(MLLMs)已经展现出较强的图像级视觉理解与推理能力,但其在图像和视频中的像素级感知能力仍然有限。SAM 系列等 foundation segmentation models 能够生成高质量 mask,但它们依赖低层视觉 prompt,无法原生理解复杂的对话式指令。现有的 segmentation MLLMs 缩小了这一差距,但通常专门面向图像或视频其中之一,并且很少在同一接口中同时支持文本 prompt 与视觉 prompt。
我们提出 X2SAM,一种统一的 segmentation MLLM,将 any-segmentation 能力从图像扩展到视频。给定对话式指令和视觉 prompt,X2SAM 将 LLM 与 Mask Memory 模块结合,后者存储受引导的视觉特征,用于生成时间上保持一致的视频 mask。同一套形式化方法支持图像和视频输入中的通用、open-vocabulary、referring、reasoning、grounded conversation generation、interactive,以及 visual grounded segmentation。
我们进一步引入 Video Visual Grounded(V-VGD)segmentation benchmark,用于评估模型能否基于交互式视觉 prompt 在视频中分割目标轨迹。通过在异构图像与视频数据集上的统一联合训练策略,X2SAM 在视频分割上取得了较强性能,在图像分割 benchmark 上保持竞争力,并保留了通用图像与视频 chat 能力。