一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

基于 1D Semantic Tokenizer 的端到端自回归图像生成

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Wenda Chu, Bingliang Zhang, Jiaqi Han, Yizhuo Li, Linjie Yang, Yisong Yue, Qiushan Guo
来自 ByteDance Seed
二〇二六年五月四日 · arXiv:2605.00503 · PDF

Autoregressive 图像建模依赖 visual tokenizer 将图像压缩为紧凑的 latent 表示。我们设计了一种端到端训练 pipeline,联合优化重建与生成,使生成结果能够对 tokenizer 进行直接监督。这不同于以往将 tokenizer 与生成模型分开训练的两阶段方法。

我们进一步研究了如何利用 vision foundation model 改进用于 autoregressive 建模的 1D tokenizer。我们的 autoregressive 生成模型取得了很强的实证结果,包括在 ImageNet 256x256 生成任务上,在无 guidance 条件下达到 1.48 的 SOTA FID 分数。

译自 Hugging Face · Daily Papers · arXiv:2605.00503 · 录于 二〇二六年五月四日