Hugging Face · Daily Papers
让 ViT 说话:生成式语言-图像预训练
Let ViT Speak: Generative Language-Image Pre-training
来自 ByteDance
摘要
本文提出 Generative Language-Image Pre-training (GenLIP),这是一种面向多模态大语言模型(MLLMs)的 Vision Transformers (ViTs) 极简生成式预训练框架。为更好地使 vision encoder 与 LLM 的自回归特性对齐,GenLIP 使用标准 language modeling 目标,训练 ViT 直接从 visual tokens 预测 language tokens,无需构造 contrastive batch,也不需要额外的 text decoder。
这一设计带来三个主要优势:(1) 简洁性:单个 Transformer 联合建模 visual tokens 和 textual tokens;(2) 可扩展性:能够随数据规模和模型规模有效扩展;(3) 性能:在多种 multimodal benchmarks 上取得有竞争力或更优的结果。GenLIP 在来自 Recap-DataComp-1B 的 8B 样本上训练,尽管使用的预训练数据显著更少,仍能达到或超过强基线。经过在原生长宽比的多分辨率图像上继续预训练后,GenLIP 在 OCR 和图表理解等对细节敏感的任务上进一步提升,使其成为 MLLMs 中 vision encoders 的有力基础。