GitHub · 版本发布

transformers v5.9.0

transformers v5.9.0

二〇二六年六月六日 · 英文原文

Hugging Face Transformers 发布 v5.9.0,新增 Cohere2Moe(Command A+ 混合专家语言模型,采用滑动窗口与全注意力混合模式及共享/路由专家)、Parakeet tdt 和 HRM-Text(层次化推理模型变体,含双 Transformer 堆栈与 PrefixLM 注意力)三种模型。破坏性变更要求 SAM3、EdgeTAM 等模型的 text_embeds 输入改为完整文本 embedding。音频支持扩展了 AudioFlamingoNext 检查点并提升编码器可编译性。生成修复涉及 Gemma4 的 inputs_embeds 处理、RAG 的 AttributeError 及 VLM 测试稳定性。

发布 v5.9.0

新增模型

Cohere2Moe

Command A+ 是 Cohere 推出的混合专家(MoE)语言模型,采用结合滑动窗口和全注意力层的混合注意力模式。该模型同时包含共享专家和路由专家,并支持超长上下文窗口以处理大规模文本序列。

链接: 文档

Parakeet tdt (#44171)

HRM-Text

HRM-Text 是层次化推理模型(HRM)的改进版自回归语言建模变体,采用层次化循环前向传播,包含两个 Transformer 堆栈——一个用于慢速抽象规划(H),一个用于快速细节计算(L)——并在嵌套循环中复用。它采用 PrefixLM 注意力机制,其中指令 token 进行双向注意力,而响应 token 进行因果注意力;每个注意力头使用 sigmoid 输出门,并采用无参数的 RMSNorm。该模型设计为基础语言模型,不包含指令微调或对话模板。

链接: 文档 | 论文

破坏性变更

SAM3、EdgeTAM 和 SAM3-Lite-Text 模型的 text_embeds 输入现在需要完整的文本 embedding,而不仅仅是池化器输出,这与库中其他模型保持一致——用户必须相应更新其输入。

音频

音频支持得到扩展,新增了 AudioFlamingoNext 模型检查点,并通过独立的纯函数提升了音频/视觉编码器的可编译性。其他改进包括从视频文件加载音频时提供更友好的错误提示,以及新增音频/视频处理器文档。

生成

修复了生成相关问题,包括 Gemma4 的 inputs_embedsper_layer_inputs 处理、RAG 的 generate() 因缺少配置字段导致的 AttributeError,以及通过在采样时屏蔽特殊图像 token 修复不稳定的 VLM 生成测试。

[余略,详见 https://github.com/huggingface/transformers/releases/tag/v5.9.0]

译自 GitHub · 版本发布 · 录于 二〇二六年六月六日