重新思考扩散Transformer中的跨层信息路由

Rethinking Cross-Layer Information Routing in Diffusion Transformers

Chao Xu, Maohua Li, Qirui Li, Yixuan Xu, Yanke Zhou, Yunhe Li, Cuifeng Shen, Hanlin Tang 等 12 位

来自 RTP-LLM

二〇二六年五月二十五日 · arXiv:2605.20708 · PDF

摘要

扩散变换器（Diffusion Transformers, DiTs）已成为现代视觉生成的事实标准骨干架构，其设计的几乎所有主要维度——包括分词（tokenization）、注意力机制（attention）、条件控制（conditioning）、目标函数（objectives）以及潜在自编码器（latent autoencoders）——都已被广泛重新审视。然而，控制信息在层间累积方式的残差流（residual stream）却直接继承自原始Transformer。本文对DiTs中跨层信息流进行了系统性的实证分析，同时沿深度和去噪时间步两个维度展开，并识别出传统残差加法的三个具体症状：单调的前向幅度膨胀、陡峭的反向梯度衰减以及显著的块级冗余。基于这一诊断，我们提出扩散自适应路由（Diffusion-Adaptive Routing, DAR），这是一种即插即用的残差替代方案，可对子层输出的历史信息进行可学习、时间步自适应且非增量的聚合。此外，所提出的DAR与许多现代Transformer增强方法（如REPA）兼容。在ImageNet 256×256上，DAR将SiT-XL/2的FID提升了2.11（7.56对比9.67），并以8.75倍更少的训练迭代次数达到基线的收敛质量。叠加在REPA之上，它在早期阶段实现了2倍的训练加速，这表明跨层信息路由是扩散建模中一个尚未充分探索的设计维度，且与现有的表示对齐目标正交运行。除预训练外，DAR还可应用于大规模T2I模型的微调阶段，并在分布匹配蒸馏（Distribution Matching Distillation）过程中保留高频细节。

译自 Hugging Face · Daily Papers · arXiv:2605.20708 · 录于二〇二六年五月二十五日