transformers v5.9.0

二〇二六年六月六日 · 英文原文

摘要

Hugging Face Transformers 发布 v5.9.0，新增 Cohere2Moe（Command A+ 混合专家语言模型，采用滑动窗口与全注意力混合模式及共享/路由专家）、Parakeet tdt 和 HRM-Text（层次化推理模型变体，含双 Transformer 堆栈与 PrefixLM 注意力）三种模型。破坏性变更要求 SAM3、EdgeTAM 等模型的 text_embeds 输入改为完整文本 embedding。音频支持扩展了 AudioFlamingoNext 检查点并提升编码器可编译性。生成修复涉及 Gemma4 的 inputs_embeds 处理、RAG 的 AttributeError 及 VLM 测试稳定性。

发布 v5.9.0

新增模型

Cohere2Moe

Command A+ 是 Cohere 推出的混合专家（MoE）语言模型，采用结合滑动窗口和全注意力层的混合注意力模式。该模型同时包含共享专家和路由专家，并支持超长上下文窗口以处理大规模文本序列。

链接： 文档

新增 cohere2_moe 模型 (#46115) — @Cyrilvallez 于 #46115

Parakeet tdt (#44171)

Parakeet tdt (#44171) — @lmaksym

HRM-Text

HRM-Text 是层次化推理模型（HRM）的改进版自回归语言建模变体，采用层次化循环前向传播，包含两个 Transformer 堆栈——一个用于慢速抽象规划（H），一个用于快速细节计算（L）——并在嵌套循环中复用。它采用 PrefixLM 注意力机制，其中指令 token 进行双向注意力，而响应 token 进行因果注意力；每个注意力头使用 sigmoid 输出门，并采用无参数的 RMSNorm。该模型设计为基础语言模型，不包含指令微调或对话模板。

链接： 文档 | 论文

新增 hrm_text (#46025) — @abcd1927 于 #46025

破坏性变更

SAM3、EdgeTAM 和 SAM3-Lite-Text 模型的 text_embeds 输入现在需要完整的文本 embedding，而不仅仅是池化器输出，这与库中其他模型保持一致——用户必须相应更新其输入。

🚨修复视觉模型中 lru 装饰器导致的内存泄漏 (#45922) — @yonigozlan

音频

音频支持得到扩展，新增了 AudioFlamingoNext 模型检查点，并通过独立的纯函数提升了音频/视觉编码器的可编译性。其他改进包括从视频文件加载音频时提供更友好的错误提示，以及新增音频/视频处理器文档。

从视频加载音频时提供用户友好的错误提示 (#45221) — @eustlb 于 [#45221]
[文档] 新增音频/视频处理器 (#45795) — @stevhliu 于 [#45795]
支持 Audio Flamingo Next 检查点 (#44830) — @lashahub 于 [#44830]
将动态视觉/音频张量提取为独立纯函数 (#45396) — @IlyasMoutawwakil 于 [#45396]

生成

修复了生成相关问题，包括 Gemma4 的 inputs_embeds 和 per_layer_inputs 处理、RAG 的 generate() 因缺少配置字段导致的 AttributeError，以及通过在采样时屏蔽特殊图像 token 修复不稳定的 VLM 生成测试。

修复从 inputs_embeds 和 per_layer_inputs 生成 Gemma4 的问题 (#46049) — @Cyrilvallez 于 [#46049]
修复 RAG 的 generate() 因缺少配置字段导致的 AttributeError (#46035) — @Sriniketh24 于 [#46035]
在生成测试采样中屏蔽 image_start/end_token_id (#45914) — @Rocketknight1 于 [#45914]

[余略，详见 https://github.com/huggingface/transformers/releases/tag/v5.9.0]

译自 GitHub · 版本发布 · 录于二〇二六年六月六日