重新思考扩散Transformer中的跨层信息路由
Rethinking Cross-Layer Information Routing in Diffusion Transformers
扩散变换器(Diffusion Transformers, DiTs)已成为现代视觉生成的事实标准骨干架构,其设计的几乎所有主要维度——包括分词(tokenization)、注意力机制(attention)、条件控制(conditioning)、目标函数(objectives)以及潜在自编码器(latent autoencoders)——都已被广泛重新审视。然而,控制信息在层间累积方式的残差流(residual stream)却直接继承自原始Transformer。本文对DiTs中跨层信息流进行了系统性的实证分析,同时沿深度和去噪时间步两个维度展开,并识别出传统残差加法的三个具体症状:单调的前向幅度膨胀、陡峭的反向梯度衰减以及显著的块级冗余。基于这一诊断,我们提出扩散自适应路由(Diffusion-Adaptive Routing, DAR),这是一种即插即用的残差替代方案,可对子层输出的历史信息进行可学习、时间步自适应且非增量的聚合。此外,所提出的DAR与许多现代Transformer增强方法(如REPA)兼容。在ImageNet 256×256上,DAR将SiT-XL/2的FID提升了2.11(7.56对比9.67),并以8.75倍更少的训练迭代次数达到基线的收敛质量。叠加在REPA之上,它在早期阶段实现了2倍的训练加速,这表明跨层信息路由是扩散建模中一个尚未充分探索的设计维度,且与现有的表示对齐目标正交运行。除预训练外,DAR还可应用于大规模T2I模型的微调阶段,并在分布匹配蒸馏(Distribution Matching Distillation)过程中保留高频细节。