Apple · ML Research

VSAS-Bench:视觉流式助手模型的实时评估

VSAS-Bench: Real-Time Evaluation of Visual Streaming Assistant Models

二〇二六年五月二十三日 · 英文原文

VSAS-Bench被提出,用于评估流式视觉语言模型(Streaming VLM)在实时场景下的性能。现有VLM框架主要针对离线场景,而流式VLM需额外考量主动性(proactiveness,响应及时性)和一致性(consistency,响应随时间稳定性)两项指标。该benchmark由相关研究团队构建,旨在弥补当前评估体系的不足。

流式视觉语言模型(Streaming VLM)能够根据指令提示和在线输入帧流连续生成响应。这是实时视觉助手的核心机制。现有VLM框架主要在离线场景下评估模型。相比之下,流式VLM的性能不仅取决于纯视频理解能力,还依赖于额外指标,包括反映模型响应及时性的主动性(proactiveness),以及衡量其响应随时间稳定性的一致性(consistency)。为解决这一局限,我们提出VSAS-Bench,一种新的……

译自 Apple · ML Research · 录于 二〇二六年五月二十三日