transformers v5.9.0
transformers v5.9.0
Hugging Face Transformers 发布 v5.9.0,新增 Cohere2Moe(Command A+ 混合专家语言模型,采用滑动窗口与全注意力混合模式及共享/路由专家)、Parakeet tdt 和 HRM-Text(层次化推理模型变体,含双 Transformer 堆栈与 PrefixLM 注意力)三种模型。破坏性变更要求 SAM3、EdgeTAM 等模型的 text_embeds 输入改为完整文本 embedding。音频支持扩展了 AudioFlamingoNext 检查点并提升编码器可编译性。生成修复涉及 Gemma4 的 inputs_embeds 处理、RAG 的 AttributeError 及 VLM 测试稳定性。
发布 v5.9.0
新增模型
Cohere2Moe
Command A+ 是 Cohere 推出的混合专家(MoE)语言模型,采用结合滑动窗口和全注意力层的混合注意力模式。该模型同时包含共享专家和路由专家,并支持超长上下文窗口以处理大规模文本序列。
链接: 文档
- 新增 cohere2_moe 模型 (#46115) — @Cyrilvallez 于 #46115
Parakeet tdt (#44171)
- Parakeet tdt (#44171) — @lmaksym
HRM-Text
HRM-Text 是层次化推理模型(HRM)的改进版自回归语言建模变体,采用层次化循环前向传播,包含两个 Transformer 堆栈——一个用于慢速抽象规划(H),一个用于快速细节计算(L)——并在嵌套循环中复用。它采用 PrefixLM 注意力机制,其中指令 token 进行双向注意力,而响应 token 进行因果注意力;每个注意力头使用 sigmoid 输出门,并采用无参数的 RMSNorm。该模型设计为基础语言模型,不包含指令微调或对话模板。
- 新增 hrm_text (#46025) — @abcd1927 于 #46025
破坏性变更
SAM3、EdgeTAM 和 SAM3-Lite-Text 模型的 text_embeds 输入现在需要完整的文本 embedding,而不仅仅是池化器输出,这与库中其他模型保持一致——用户必须相应更新其输入。
- 🚨修复视觉模型中 lru 装饰器导致的内存泄漏 (#45922) — @yonigozlan
音频
音频支持得到扩展,新增了 AudioFlamingoNext 模型检查点,并通过独立的纯函数提升了音频/视觉编码器的可编译性。其他改进包括从视频文件加载音频时提供更友好的错误提示,以及新增音频/视频处理器文档。
- 从视频加载音频时提供用户友好的错误提示 (#45221) — @eustlb 于 [#45221]
- [文档] 新增音频/视频处理器 (#45795) — @stevhliu 于 [#45795]
- 支持 Audio Flamingo Next 检查点 (#44830) — @lashahub 于 [#44830]
- 将动态视觉/音频张量提取为独立纯函数 (#45396) — @IlyasMoutawwakil 于 [#45396]
生成
修复了生成相关问题,包括 Gemma4 的 inputs_embeds 和 per_layer_inputs 处理、RAG 的 generate() 因缺少配置字段导致的 AttributeError,以及通过在采样时屏蔽特殊图像 token 修复不稳定的 VLM 生成测试。
- 修复从 inputs_embeds 和 per_layer_inputs 生成 Gemma4 的问题 (#46049) — @Cyrilvallez 于 [#46049]
- 修复 RAG 的 generate() 因缺少配置字段导致的 AttributeError (#46035) — @Sriniketh24 于 [#46035]
- 在生成测试采样中屏蔽 image_start/end_token_id (#45914) — @Rocketknight1 于 [#45914]
[余略,详见 https://github.com/huggingface/transformers/releases/tag/v5.9.0]