一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

扭转 TIDE:Diffusion 大语言模型的跨架构蒸馏

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Gongbo Zhang, Wen Wang, Ye Tian, Li Yuan
二〇二六年四月三十日 · arXiv:2604.26951 · PDF

Diffusion large language models(dLLMs)支持并行解码和双向上下文,但当前 SOTA dLLMs 需要数十亿参数才能达到有竞争力的性能。现有针对 dLLMs 的蒸馏方法可以在单一架构内减少推理步数,但尚未解决跨架构知识迁移问题,即 teacher 与 student 在架构、attention 机制和 tokenizer 上均不相同。

我们提出 TIDE,这是首个用于跨架构 dLLM 蒸馏的框架,由三个模块化组件组成:(1) TIDAL,在训练进程和 diffusion timestep 上联合调节蒸馏强度,以考虑 teacher 在不同噪声水平下的可靠性;(2) CompDemo,通过互补的 mask splitting 丰富 teacher 的上下文,从而改善重度 masking 下的预测;(3) Reverse CALM,一种跨 tokenizer 目标,它反转 chunk 级 likelihood matching,从而得到有界梯度和双端噪声过滤。

我们通过两条异构 pipeline,将 8B dense 和 16B MoE teacher 蒸馏到 0.6B student 中,在八个 benchmark 上平均比 baseline 高出 1.53 分,并在代码生成上取得明显提升:HumanEval 得分达到 48.78,而 AR baseline 为 32.3。

译自 Hugging Face · Daily Papers · arXiv:2604.26951 · 录于 二〇二六年四月三十日