Hugging Face · Daily Papers

SenseNova-U1：基于NEO-unify架构统一多模态理解与生成

SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

Haiwen Diao, Penghao Wu, Hanming Deng, Jiahao Wang, Shihao Bai, Silei Wu, Weichen Fan, Wenjie Ye 等 58 位

二〇二六年五月十三日 · arXiv:2605.12500 · PDF · Code

摘要

近期的大规模视觉语言模型（VLM）仍受制于一个根深蒂固的二元对立：理解与生成被视为两个独立的问题，导致架构碎片化、流水线级联以及表征空间错位。我们认为，这种割裂不仅是工程上的产物，更是一种结构性局限，阻碍了原生多模态智能的涌现。为此，我们提出 SenseNova-U1，一种基于 NEO-unify 构建的原生统一多模态范式，其中理解与生成作为单一底层过程的协同视角共同演化。我们发布了两个原生统一变体：SenseNova-U1-8B-MoT 和 SenseNova-U1-A3B-MoT，分别基于密集（8B）和混合专家（30B-A3B）理解基线构建。从第一性原理出发，它们在文本理解、视觉语言感知、知识推理、智能体决策和空间智能方面，可与顶尖的纯理解 VLM 相媲美。同时，它们展现出强大的语义一致性和视觉保真度，在常规或知识密集型任意到图像（X2I）合成、复杂文本丰富的信息图生成以及交错视觉语言生成（无论是否采用思考模式）中均表现出色。除性能外，我们还详细展示了模型设计、数据预处理、预训练/后训练及推理策略，以支持社区研究。最后，初步证据表明，我们的模型不仅限于感知与生成，在视觉-语言-动作（VLA）和世界模型（WM）场景中也表现强劲。这指向一条更广阔的路线：模型不再是在模态之间进行翻译，而是以原生方式跨模态思考与行动。多模态 AI 不再是连接独立系统的问题，而是构建一个统一系统，并信任必要能力从中自然涌现。