transformers v5.7.0

二〇二六年六月六日 · 英文原文

摘要

Hugging Face Transformers 发布 v5.7.0 版本。新增模型包括：Poolside 的混合专家语言模型 Laguna，采用按层注意力头数和 sigmoid MoE 路由器；实时目标检测模型 DEIMv2，提供八种尺寸，DEIMv2-X 以 50.3M 参数达 57.8 AP，DEIMv2-S 为 COCO 上首个超 50 AP 的 sub-10M 模型。修复了 T5Gemma2、Qwen3.5、GraniteMoeHybrid 等模型的 attention 相关 bug，以及 AutoTokenizer 初始化错误和连续批处理生成的长序列问题。

发布 v5.7.0

新增模型

Laguna

Laguna 是 Poolside 的混合专家（mixture-of-experts）语言模型家族，它在标准 SwiGLU MoE Transformer 基础上引入了两项关键创新。其一是按层设置注意力头数（per-layer head counts），允许不同 decoder 层拥有不同的 query 头数，同时共享相同的 KV cache 形状；其二是实现了 sigmoid MoE 路由器，采用无辅助损失的负载均衡（auxiliary-loss-free load balancing），通过 gate logits 的元素级 sigmoid 加上可学习的每专家偏置（per-expert bias）来进行路由器评分。

链接： 文档

Laguna XS.2 实现 (#45673) 由 @joerowell 在 #45673 中提交

DEIMv2

DEIMv2（DETR with Improved Matching v2）是一个实时目标检测模型，它在 DEIM 基础上扩展了 DINOv3 特征，并提供从 X 到 Atto 共八种模型尺寸，以适应不同的部署场景。对于较大变体，它使用空间调适适配器（Spatial Tuning Adapter, STA）将 DINOv3 的单尺度输出转换为多尺度特征，而超轻量模型则采用剪枝后的 HGNetv2 骨干网络。这种统一设计实现了优越的性能-成本权衡：DEIMv2-X 仅用 50.3M 参数即达到 57.8 AP，DEIMv2-S 则是首个在 COCO 上超过 50 AP 的 sub-10M 模型。

链接： 文档 | 论文

模型：将 DEIMv2 加入 Transformers (#44339) 由 @harshaljanjani 在 #44339 中提交

Attention

修复了多个模型中与 attention 相关的若干 bug，包括 T5Gemma2 在长输入时的交叉注意力缓存类型错误、Qwen3.5 的 gated-delta-net 线性注意力中 cached forward 行为不正确，以及 GraniteMoeHybrid 在无 Mamba 层时的崩溃问题。此外，attention 函数分发（dispatch）也进行了更新，以与最新的模型实现保持一致。

修复 T5Gemma2 长输入的交叉注意力缓存层类型 (#45540) 由 @Beichen-Ma 在 [#45540] 中提交
[Qwen3.5] 修复 GDN 线性注意力的多 token cached forward 问题 (#45513) 由 @kashif 在 [#45513] 中提交
修复 GraniteMoeHybrid 在仅 attention 模型上 _update_mamba_mask 崩溃的问题 (#45514) 由 @tianhaocui 在 [#45514] 中提交
对齐最新模型的 attention 函数分发 (#45598) 由 @Cyrilvallez 在 [#45598] 中提交

Tokenizers

AutoTokenizer 中存在一个 bug，导致初始化了错误的 tokenizer 类。这导致 DeepSeek R1 等模型出现回归问题。

变更被回退 (#45680) 由 @itazap 在 [#45680] 中提交

Generation

连续批处理生成（continuous batching generation）获得了多项修复和改进，包括修正长序列（16K+）的 KV 去重和内存估算，以及移除关于 num_return_sequences 和其他不支持功能的误导性警告——这些警告在功能正常工作时也会错误地触发。此外，还添加了关于每请求采样参数（per-request sampling parameters）的文档。

generate：在连续批处理路径上移除过时的 num_return_sequences 警告 (#45582) 由 @joaquinhuigomez 在 [#45582] 中提交
移除不必要的 generate 警告 (#45619) 由 @Cyrilvallez 在 [#45619] 中提交
[CB] 长生成的相关变更 (#45530) 由 @remi-or 在 [#45530] 中提交
[文档] 每请求采样参数 (#45553) 由 @stevhliu 在 [#45553] 中提交

[余略，详见 https://github.com/huggingface/transformers/releases/tag/v5.7.0]

译自 GitHub · 版本发布 · 录于二〇二六年六月六日