WBench：交互式视频世界模型评估的综合多轮基准

WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

Kaining Ying, Hengrui Hu, Siyu Ren, Jiamu Li, Fengjiao Chen, Ziwen Wang, Xuezhi Cao, Xunliang Cai 等 9 位

来自 LongCat

二〇二六年五月二十六日 · arXiv:2605.25874 · PDF · Code

摘要

交互式世界模型正在快速发展，但现有基准仅覆盖了部分必要能力，缺乏统一的系统评估标准。为填补这一空白，我们提出WBench——一个面向交互式世界模型评估的多轮综合基准，涵盖视频质量、设定遵循、交互遵循、一致性和物理合规性五个维度。WBench包含289个测试用例和1,058个交互轮次，每个用例指定一个世界设定及多轮交互序列，覆盖多样场景、风格、主体，以及第一人称和第三人称视角，同时包含导航、主体动作、事件编辑和视角切换四种交互类型。在导航方面，WBench统一了文本、6自由度位姿和离散动作控制，支持评估具有不同原生输入接口的模型。评估采用22项自动子指标，结合专业视觉模型与大型多模态模型，所有指标均经过人工判断验证。在对20个最先进模型的测试中，我们发现没有任何单一模型在所有维度上表现优异。我们提供了每个模型特征性优势、劣势及开放挑战的详细诊断分析。代码与数据见https://github.com/meituan-longcat/WBench。

译自 Hugging Face · Daily Papers · arXiv:2605.25874 · 录于二〇二六年五月二十六日