一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

SenseNova-U1:基于NEO-unify架构统一多模态理解与生成

SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

Haiwen Diao, Penghao Wu, Hanming Deng, Jiahao Wang, Shihao Bai, Silei Wu, Weichen Fan, Wenjie Ye 等 58 位
二〇二六年五月十三日 · arXiv:2605.12500 · PDF · Code

近期的大规模视觉语言模型(VLM)仍受制于一个根深蒂固的二元对立:理解与生成被视为两个独立的问题,导致架构碎片化、流水线级联以及表征空间错位。我们认为,这种割裂不仅是工程上的产物,更是一种结构性局限,阻碍了原生多模态智能的涌现。为此,我们提出 SenseNova-U1,一种基于 NEO-unify 构建的原生统一多模态范式,其中理解与生成作为单一底层过程的协同视角共同演化。我们发布了两个原生统一变体:SenseNova-U1-8B-MoT 和 SenseNova-U1-A3B-MoT,分别基于密集(8B)和混合专家(30B-A3B)理解基线构建。从第一性原理出发,它们在文本理解、视觉语言感知、知识推理、智能体决策和空间智能方面,可与顶尖的纯理解 VLM 相媲美。同时,它们展现出强大的语义一致性和视觉保真度,在常规或知识密集型任意到图像(X2I)合成、复杂文本丰富的信息图生成以及交错视觉语言生成(无论是否采用思考模式)中均表现出色。除性能外,我们还详细展示了模型设计、数据预处理、预训练/后训练及推理策略,以支持社区研究。最后,初步证据表明,我们的模型不仅限于感知与生成,在视觉-语言-动作(VLA)和世界模型(WM)场景中也表现强劲。这指向一条更广阔的路线:模型不再是在模态之间进行翻译,而是以原生方式跨模态思考与行动。多模态 AI 不再是连接独立系统的问题,而是构建一个统一系统,并信任必要能力从中自然涌现。

译自 Hugging Face · Daily Papers · arXiv:2605.12500 · 录于 二〇二六年五月十三日