VSAS-Bench：视觉流式助手模型的实时评估

VSAS-Bench: Real-Time Evaluation of Visual Streaming Assistant Models

二〇二六年五月二十三日 · 英文原文

摘要

VSAS-Bench被提出，用于评估流式视觉语言模型（Streaming VLM）在实时场景下的性能。现有VLM框架主要针对离线场景，而流式VLM需额外考量主动性（proactiveness，响应及时性）和一致性（consistency，响应随时间稳定性）两项指标。该benchmark由相关研究团队构建，旨在弥补当前评估体系的不足。

流式视觉语言模型（Streaming VLM）能够根据指令提示和在线输入帧流连续生成响应。这是实时视觉助手的核心机制。现有VLM框架主要在离线场景下评估模型。相比之下，流式VLM的性能不仅取决于纯视频理解能力，还依赖于额外指标，包括反映模型响应及时性的主动性（proactiveness），以及衡量其响应随时间稳定性的一致性（consistency）。为解决这一局限，我们提出VSAS-Bench，一种新的……

译自 Apple · ML Research · 录于二〇二六年五月二十三日