Hugging Face · Daily Papers

基于 1D Semantic Tokenizer 的端到端自回归图像生成

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Wenda Chu, Bingliang Zhang, Jiaqi Han, Yizhuo Li, Linjie Yang, Yisong Yue, Qiushan Guo

来自 ByteDance Seed

二〇二六年五月四日 · arXiv:2605.00503 · PDF

摘要

Autoregressive 图像建模依赖 visual tokenizer 将图像压缩为紧凑的 latent 表示。我们设计了一种端到端训练 pipeline，联合优化重建与生成，使生成结果能够对 tokenizer 进行直接监督。这不同于以往将 tokenizer 与生成模型分开训练的两阶段方法。

我们进一步研究了如何利用 vision foundation model 改进用于 autoregressive 建模的 1D tokenizer。我们的 autoregressive 生成模型取得了很强的实证结果，包括在 ImageNet 256x256 生成任务上，在无 guidance 条件下达到 1.48 的 SOTA FID 分数。