Hugging Face · Daily Papers
均值模式尖叫:面向千层扩散Transformer的均值-方差分裂残差
Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers
摘要
将扩散变换器(Diffusion Transformers, DiTs)扩展到数百层会引入一种结构性脆弱性:网络可能进入一种静默的、均值主导的崩溃状态,这种状态会同质化词元表示并抑制中心化变异。通过机制审计,我们将这种崩溃的触发事件隔离为均值模式尖叫(Mean Mode Screaming, MMS)。即使训练看似稳定,MMS也可能发生:残差写入器上出现均值一致的向后冲击,打开深层残差分支,并将网络驱动至均值主导状态。我们证明,这种行为由这些梯度精确分解为均值一致分量和中心化分量所驱动,且一旦值同质化,注意力对数梯度通过Softmax雅可比矩阵的零空间受到结构性抑制,进一步加剧了该问题。
为解决这一问题,我们提出均值-方差分离(Mean-Variance Split, MV-Split)残差,它将独立增益的中心化残差更新与泄漏的主干均值替换相结合。在400层单流DiT上,MV-Split能够防止导致未稳定基线崩溃的发散性崩溃;它紧密跟踪基线崩溃前的轨迹,同时在完整训练计划中始终优于词元各向同性门控方法(如LayerScale)。最后,我们展示了一个1000层DiT作为边界尺度上的规模验证运行,证明该架构在极端深度下仍能稳定训练。