WBench:交互式视频世界模型评估的综合多轮基准
WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation
来自 LongCat
摘要
交互式世界模型正在快速发展,但现有基准仅覆盖了部分必要能力,缺乏统一的系统评估标准。为填补这一空白,我们提出WBench——一个面向交互式世界模型评估的多轮综合基准,涵盖视频质量、设定遵循、交互遵循、一致性和物理合规性五个维度。WBench包含289个测试用例和1,058个交互轮次,每个用例指定一个世界设定及多轮交互序列,覆盖多样场景、风格、主体,以及第一人称和第三人称视角,同时包含导航、主体动作、事件编辑和视角切换四种交互类型。在导航方面,WBench统一了文本、6自由度位姿和离散动作控制,支持评估具有不同原生输入接口的模型。评估采用22项自动子指标,结合专业视觉模型与大型多模态模型,所有指标均经过人工判断验证。在对20个最先进模型的测试中,我们发现没有任何单一模型在所有维度上表现优异。我们提供了每个模型特征性优势、劣势及开放挑战的详细诊断分析。代码与数据见https://github.com/meituan-longcat/WBench。
译自 Hugging Face · Daily Papers · arXiv:2605.25874 · 录于 二〇二六年五月二十六日