Hugging Face · Daily Papers

让 ViT 说话：生成式语言-图像预训练

Let ViT Speak: Generative Language-Image Pre-training

Yan Fang, Mengcheng Lan, Zilong Huang, Weixian Lei, Yunqing Zhao, Yujie Zhong, Yingchen Yu, Qi She 等 10 位

来自 ByteDance

二〇二六年五月四日 · arXiv:2605.00809 · PDF · Code

摘要

本文提出 Generative Language-Image Pre-training (GenLIP)，这是一种面向多模态大语言模型（MLLMs）的 Vision Transformers (ViTs) 极简生成式预训练框架。为更好地使 vision encoder 与 LLM 的自回归特性对齐，GenLIP 使用标准 language modeling 目标，训练 ViT 直接从 visual tokens 预测 language tokens，无需构造 contrastive batch，也不需要额外的 text decoder。

这一设计带来三个主要优势：(1) 简洁性：单个 Transformer 联合建模 visual tokens 和 textual tokens；(2) 可扩展性：能够随数据规模和模型规模有效扩展；(3) 性能：在多种 multimodal benchmarks 上取得有竞争力或更优的结果。GenLIP 在来自 Recap-DataComp-1B 的 8B 样本上训练，尽管使用的预训练数据显著更少，仍能达到或超过强基线。经过在原生长宽比的多分辨率图像上继续预训练后，GenLIP 在 OCR 和图表理解等对细节敏感的任务上进一步提升，使其成为 MLLMs 中 vision encoders 的有力基础。