Hugging Face · Daily Papers

具备统一动作生成框架的交互式世界模型 benchmark

A Benchmark for Interactive World Models with a Unified Action Generation Framework

Jianjie Fang, Yingshan Lei, Qin Wan, Ziyou Wang, Yuchao Huang, Yongyan Xu, Baining Zhao, Weichen Zhang 等 11 位

二〇二六年五月六日 · arXiv:2605.03941 · PDF

摘要

实现 Artificial General Intelligence (AGI) 需要能够自适应学习和交互的 agent，而交互式 world model 可为感知、推理和行动提供可扩展的环境。然而，当前研究仍缺乏用于评估其物理交互能力的大规模数据集和统一 benchmark。

为此，我们提出 iWorld-Bench，一个用于训练和测试 world model 在距离感知、记忆等交互相关能力上的综合 benchmark。我们构建了一个包含 330k 个视频片段的多样化数据集，并筛选出 2.1k 个高质量样本，覆盖不同视角、天气和场景。由于现有 world model 的交互模态各不相同，我们引入 Action Generation Framework 以统一评估，并设计了 6 类任务，生成 4.9k 个测试样本。这些任务共同评估模型在视觉生成、轨迹跟随和记忆方面的表现。

通过评估 14 个具有代表性的 world model，我们识别了关键局限，并为未来研究提供了见解。iWorld-Bench 模型 leaderboard 已公开发布于 iWorld-Bench.com。