Hugging Face · Daily Papers

唤醒统一多模态理解与生成中的空间智能

Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

Lin Song, Wenbo Li, Guoqing Ma, Wei Tang, Bo Wang, Yuan Zhang, Yijun Yang, Yicheng Xiao 等 19 位

二〇二六年五月七日 · arXiv:2605.04128 · PDF · Code

摘要

我们提出 JoyAI-Image，一个统一的 multimodal foundation model，用于视觉理解、text-to-image 生成以及 instruction-guided 图像编辑。JoyAI-Image 将空间增强的 Multimodal Large Language Model（MLLM）与 Multimodal Diffusion Transformer（MMDiT）结合起来，使感知与生成能够通过共享的 multimodal interface 进行交互。围绕这一架构，我们构建了一套可扩展的训练方案，结合 unified instruction tuning、长文本渲染监督、空间定位数据，以及通用与空间编辑信号。该设计赋予模型广泛的 multimodal 能力，同时增强其 geometry-aware 推理与可控视觉合成能力。

在视觉理解、生成、长文本渲染和编辑等 benchmark 上的实验表明，JoyAI-Image 达到了 SOTA 或具有高度竞争力的性能。更重要的是，增强理解、可控空间编辑与 novel-view-assisted 推理之间的双向循环，使模型能够超越一般视觉能力，迈向更强的空间智能。这些结果表明，统一视觉模型在 vision-language-action systems 和 world models 等下游应用中具有一条有前景的发展路径。