基于视频先验与异步去噪的统一 4D 世界动作建模
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising
我们提出 X-WAM,一个统一的 4D World Model,在单一框架中统一实时机器人 action 执行与高保真 4D world synthesis(video + 3D reconstruction),解决了以往统一 world model(如 UWM)的关键局限:它们仅对 2D pixel-space 建模,无法兼顾 action 效率与 world modeling 质量。
为利用预训练 video diffusion model 强大的视觉先验,X-WAM 通过预测 multi-view RGB-D videos 来想象未来 world,并通过一种轻量级结构适配高效获取空间信息:将预训练 Diffusion Transformer 的最后若干 blocks 复制到专用的 depth prediction branch 中,用于重建未来空间信息。
此外,我们提出 Asynchronous Noise Sampling(ANS),用于联合优化生成质量与 action decoding 效率。ANS 在 inference 阶段采用专门的异步 denoising schedule,以更少步数快速解码 actions,从而实现高效的实时执行;同时使用完整步数序列生成高保真 video。ANS 在训练时并非完全解耦 timesteps,而是从其联合分布中采样,以对齐 inference 分布。
X-WAM 在超过 5,800 小时的机器人数据上完成预训练,在 RoboCasa 和 RoboTwin 2.0 benchmarks 上分别取得 79.2% 和 90.7% 的平均成功率,同时生成高保真的 4D reconstruction 与 generation,并在视觉和几何指标上超过现有方法。