一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

让 ViT 说话:生成式语言-图像预训练

Let ViT Speak: Generative Language-Image Pre-training

Yan Fang, Mengcheng Lan, Zilong Huang, Weixian Lei, Yunqing Zhao, Yujie Zhong, Yingchen Yu, Qi She 等 10 位
来自 ByteDance
二〇二六年五月四日 · arXiv:2605.00809 · PDF · Code

本文提出 Generative Language-Image Pre-training (GenLIP),这是一种面向多模态大语言模型(MLLMs)的 Vision Transformers (ViTs) 极简生成式预训练框架。为更好地使 vision encoder 与 LLM 的自回归特性对齐,GenLIP 使用标准 language modeling 目标,训练 ViT 直接从 visual tokens 预测 language tokens,无需构造 contrastive batch,也不需要额外的 text decoder。

这一设计带来三个主要优势:(1) 简洁性:单个 Transformer 联合建模 visual tokens 和 textual tokens;(2) 可扩展性:能够随数据规模和模型规模有效扩展;(3) 性能:在多种 multimodal benchmarks 上取得有竞争力或更优的结果。GenLIP 在来自 Recap-DataComp-1B 的 8B 样本上训练,尽管使用的预训练数据显著更少,仍能达到或超过强基线。经过在原生长宽比的多分辨率图像上继续预训练后,GenLIP 在 OCR 和图表理解等对细节敏感的任务上进一步提升,使其成为 MLLMs 中 vision encoders 的有力基础。

译自 Hugging Face · Daily Papers · arXiv:2605.00809 · 录于 二〇二六年五月四日