Gamma-World:超越双玩家的生成式多智能体世界建模
Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
来自 NVIDIA
摘要
面向交互式视频生成的世界模型主要聚焦于单智能体场景,即仅通过单一控制信号生成未来观测。然而,许多生成环境需要多智能体交互:多个玩家、机器人或具身智能体在同一共享空间中同时行动。将世界模型扩展到此类场景需要原则性的多智能体设计:智能体应保持独立可控、置换对称,并支持高效推理,同时确保时间与视角的一致性。本文提出了一种用于交互式仿真的生成式多智能体世界模型。该模型引入了单纯形旋转智能体编码(Simplex Rotary Agent Encoding),这是3D RoPE的一种无参数扩展,将智能体表示为旋转角度空间中的正则单纯形顶点。这为每个智能体赋予独特相位,同时使所有智能体置换等价,从而无需学习每个槽位的身份标识或固定智能体排序即可实现可扩展的智能体身份表示。为避免智能体间密集的全对全注意力,我们进一步提出稀疏枢纽注意力(Sparse Hub Attention),其中可学习的枢纽令牌(hub tokens)在智能体间协调令牌交互,将跨智能体注意力成本从智能体数量的二次方降至线性。为实现实时推理,我们将全上下文扩散教师模型蒸馏为因果学生模型,该模型通过KV缓存顺序生成时间块,以24 FPS的帧率生成响应动作的视频。在多玩家虚拟环境中的实验表明,与基于槽位和密集注意力的基线方法相比,我们的模型在视频保真度、动作可控性和智能体间一致性方面均有提升,且无需额外训练即可从两玩家泛化至四玩家场景。
译自 Hugging Face · Daily Papers · arXiv:2605.28816 · 录于 二〇二六年五月二十八日