transformers v5.7.0
transformers v5.7.0
Hugging Face Transformers 发布 v5.7.0 版本。新增模型包括:Poolside 的混合专家语言模型 Laguna,采用按层注意力头数和 sigmoid MoE 路由器;实时目标检测模型 DEIMv2,提供八种尺寸,DEIMv2-X 以 50.3M 参数达 57.8 AP,DEIMv2-S 为 COCO 上首个超 50 AP 的 sub-10M 模型。修复了 T5Gemma2、Qwen3.5、GraniteMoeHybrid 等模型的 attention 相关 bug,以及 AutoTokenizer 初始化错误和连续批处理生成的长序列问题。
发布 v5.7.0
新增模型
Laguna
Laguna 是 Poolside 的混合专家(mixture-of-experts)语言模型家族,它在标准 SwiGLU MoE Transformer 基础上引入了两项关键创新。其一是按层设置注意力头数(per-layer head counts),允许不同 decoder 层拥有不同的 query 头数,同时共享相同的 KV cache 形状;其二是实现了 sigmoid MoE 路由器,采用无辅助损失的负载均衡(auxiliary-loss-free load balancing),通过 gate logits 的元素级 sigmoid 加上可学习的每专家偏置(per-expert bias)来进行路由器评分。
链接: 文档
- Laguna XS.2 实现 (#45673) 由 @joerowell 在 #45673 中提交
DEIMv2
DEIMv2(DETR with Improved Matching v2)是一个实时目标检测模型,它在 DEIM 基础上扩展了 DINOv3 特征,并提供从 X 到 Atto 共八种模型尺寸,以适应不同的部署场景。对于较大变体,它使用空间调适适配器(Spatial Tuning Adapter, STA)将 DINOv3 的单尺度输出转换为多尺度特征,而超轻量模型则采用剪枝后的 HGNetv2 骨干网络。这种统一设计实现了优越的性能-成本权衡:DEIMv2-X 仅用 50.3M 参数即达到 57.8 AP,DEIMv2-S 则是首个在 COCO 上超过 50 AP 的 sub-10M 模型。
- 模型:将 DEIMv2 加入 Transformers (#44339) 由 @harshaljanjani 在 #44339 中提交
Attention
修复了多个模型中与 attention 相关的若干 bug,包括 T5Gemma2 在长输入时的交叉注意力缓存类型错误、Qwen3.5 的 gated-delta-net 线性注意力中 cached forward 行为不正确,以及 GraniteMoeHybrid 在无 Mamba 层时的崩溃问题。此外,attention 函数分发(dispatch)也进行了更新,以与最新的模型实现保持一致。
- 修复 T5Gemma2 长输入的交叉注意力缓存层类型 (#45540) 由 @Beichen-Ma 在 [#45540] 中提交
- [Qwen3.5] 修复 GDN 线性注意力的多 token cached forward 问题 (#45513) 由 @kashif 在 [#45513] 中提交
- 修复 GraniteMoeHybrid 在仅 attention 模型上 _update_mamba_mask 崩溃的问题 (#45514) 由 @tianhaocui 在 [#45514] 中提交
- 对齐最新模型的 attention 函数分发 (#45598) 由 @Cyrilvallez 在 [#45598] 中提交
Tokenizers
AutoTokenizer 中存在一个 bug,导致初始化了错误的 tokenizer 类。这导致 DeepSeek R1 等模型出现回归问题。
- 变更被回退 (#45680) 由 @itazap 在 [#45680] 中提交
Generation
连续批处理生成(continuous batching generation)获得了多项修复和改进,包括修正长序列(16K+)的 KV 去重和内存估算,以及移除关于 num_return_sequences 和其他不支持功能的误导性警告——这些警告在功能正常工作时也会错误地触发。此外,还添加了关于每请求采样参数(per-request sampling parameters)的文档。
- generate:在连续批处理路径上移除过时的 num_return_sequences 警告 (#45582) 由 @joaquinhuigomez 在 [#45582] 中提交
- 移除不必要的 generate 警告 (#45619) 由 @Cyrilvallez 在 [#45619] 中提交
- [CB] 长生成的相关变更 (#45530) 由 @remi-or 在 [#45530] 中提交
- [文档] 每请求采样参数 (#45553) 由 @stevhliu 在 [#45553] 中提交
[余略,详见 https://github.com/huggingface/transformers/releases/tag/v5.7.0]