Hugging Face · Daily Papers

基于视频先验与异步去噪的统一 4D 世界动作建模

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Jun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang 等 10 位

二〇二六年五月三日 · arXiv:2604.26694 · PDF

摘要

我们提出 X-WAM，一个统一的 4D World Model，在单一框架中统一实时机器人 action 执行与高保真 4D world synthesis（video + 3D reconstruction），解决了以往统一 world model（如 UWM）的关键局限：它们仅对 2D pixel-space 建模，无法兼顾 action 效率与 world modeling 质量。

为利用预训练 video diffusion model 强大的视觉先验，X-WAM 通过预测 multi-view RGB-D videos 来想象未来 world，并通过一种轻量级结构适配高效获取空间信息：将预训练 Diffusion Transformer 的最后若干 blocks 复制到专用的 depth prediction branch 中，用于重建未来空间信息。

此外，我们提出 Asynchronous Noise Sampling（ANS），用于联合优化生成质量与 action decoding 效率。ANS 在 inference 阶段采用专门的异步 denoising schedule，以更少步数快速解码 actions，从而实现高效的实时执行；同时使用完整步数序列生成高保真 video。ANS 在训练时并非完全解耦 timesteps，而是从其联合分布中采样，以对齐 inference 分布。

X-WAM 在超过 5,800 小时的机器人数据上完成预训练，在 RoboCasa 和 RoboTwin 2.0 benchmarks 上分别取得 79.2% 和 90.7% 的平均成功率，同时生成高保真的 4D reconstruction 与 generation，并在视觉和几何指标上超过现有方法。