Hugging Face · Daily Papers
唤醒统一多模态理解与生成中的空间智能
Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
摘要
我们提出 JoyAI-Image,一个统一的 multimodal foundation model,用于视觉理解、text-to-image 生成以及 instruction-guided 图像编辑。JoyAI-Image 将空间增强的 Multimodal Large Language Model(MLLM)与 Multimodal Diffusion Transformer(MMDiT)结合起来,使感知与生成能够通过共享的 multimodal interface 进行交互。围绕这一架构,我们构建了一套可扩展的训练方案,结合 unified instruction tuning、长文本渲染监督、空间定位数据,以及通用与空间编辑信号。该设计赋予模型广泛的 multimodal 能力,同时增强其 geometry-aware 推理与可控视觉合成能力。
在视觉理解、生成、长文本渲染和编辑等 benchmark 上的实验表明,JoyAI-Image 达到了 SOTA 或具有高度竞争力的性能。更重要的是,增强理解、可控空间编辑与 novel-view-assisted 推理之间的双向循环,使模型能够超越一般视觉能力,迈向更强的空间智能。这些结果表明,统一视觉模型在 vision-language-action systems 和 world models 等下游应用中具有一条有前景的发展路径。