GitHub · 版本发布

transformers v5.7.0

transformers v5.7.0

二〇二六年六月六日 · 英文原文

Hugging Face Transformers 发布 v5.7.0 版本。新增模型包括:Poolside 的混合专家语言模型 Laguna,采用按层注意力头数和 sigmoid MoE 路由器;实时目标检测模型 DEIMv2,提供八种尺寸,DEIMv2-X 以 50.3M 参数达 57.8 AP,DEIMv2-S 为 COCO 上首个超 50 AP 的 sub-10M 模型。修复了 T5Gemma2、Qwen3.5、GraniteMoeHybrid 等模型的 attention 相关 bug,以及 AutoTokenizer 初始化错误和连续批处理生成的长序列问题。

发布 v5.7.0

新增模型

Laguna

Laguna 是 Poolside 的混合专家(mixture-of-experts)语言模型家族,它在标准 SwiGLU MoE Transformer 基础上引入了两项关键创新。其一是按层设置注意力头数(per-layer head counts),允许不同 decoder 层拥有不同的 query 头数,同时共享相同的 KV cache 形状;其二是实现了 sigmoid MoE 路由器,采用无辅助损失的负载均衡(auxiliary-loss-free load balancing),通过 gate logits 的元素级 sigmoid 加上可学习的每专家偏置(per-expert bias)来进行路由器评分。

链接: 文档

DEIMv2

DEIMv2(DETR with Improved Matching v2)是一个实时目标检测模型,它在 DEIM 基础上扩展了 DINOv3 特征,并提供从 X 到 Atto 共八种模型尺寸,以适应不同的部署场景。对于较大变体,它使用空间调适适配器(Spatial Tuning Adapter, STA)将 DINOv3 的单尺度输出转换为多尺度特征,而超轻量模型则采用剪枝后的 HGNetv2 骨干网络。这种统一设计实现了优越的性能-成本权衡:DEIMv2-X 仅用 50.3M 参数即达到 57.8 AP,DEIMv2-S 则是首个在 COCO 上超过 50 AP 的 sub-10M 模型。

链接: 文档 | 论文

Attention

修复了多个模型中与 attention 相关的若干 bug,包括 T5Gemma2 在长输入时的交叉注意力缓存类型错误、Qwen3.5 的 gated-delta-net 线性注意力中 cached forward 行为不正确,以及 GraniteMoeHybrid 在无 Mamba 层时的崩溃问题。此外,attention 函数分发(dispatch)也进行了更新,以与最新的模型实现保持一致。

Tokenizers

AutoTokenizer 中存在一个 bug,导致初始化了错误的 tokenizer 类。这导致 DeepSeek R1 等模型出现回归问题。

Generation

连续批处理生成(continuous batching generation)获得了多项修复和改进,包括修正长序列(16K+)的 KV 去重和内存估算,以及移除关于 num_return_sequences 和其他不支持功能的误导性警告——这些警告在功能正常工作时也会错误地触发。此外,还添加了关于每请求采样参数(per-request sampling parameters)的文档。

[余略,详见 https://github.com/huggingface/transformers/releases/tag/v5.7.0]

译自 GitHub · 版本发布 · 录于 二〇二六年六月六日