Hugging Face · Daily Papers
具备统一动作生成框架的交互式世界模型 benchmark
A Benchmark for Interactive World Models with a Unified Action Generation Framework
摘要
实现 Artificial General Intelligence (AGI) 需要能够自适应学习和交互的 agent,而交互式 world model 可为感知、推理和行动提供可扩展的环境。然而,当前研究仍缺乏用于评估其物理交互能力的大规模数据集和统一 benchmark。
为此,我们提出 iWorld-Bench,一个用于训练和测试 world model 在距离感知、记忆等交互相关能力上的综合 benchmark。我们构建了一个包含 330k 个视频片段的多样化数据集,并筛选出 2.1k 个高质量样本,覆盖不同视角、天气和场景。由于现有 world model 的交互模态各不相同,我们引入 Action Generation Framework 以统一评估,并设计了 6 类任务,生成 4.9k 个测试样本。这些任务共同评估模型在视觉生成、轨迹跟随和记忆方面的表现。
通过评估 14 个具有代表性的 world model,我们识别了关键局限,并为未来研究提供了见解。iWorld-Bench 模型 leaderboard 已公开发布于 iWorld-Bench.com。