transformers v5.10.1

二〇二六年六月六日 · 英文原文

摘要

Hugging Face Transformers 发布 v5.10.1，撤回因损坏分支发布的 v5.10.0。新增模型包括：Google 的 Gemma4 Unified（无编码器多模态模型，通过线性流水线直接投影像素与音频至 LM 空间）；Meta 的 Sapiens2（高分辨率视觉 Transformer，在 10 亿张人体图像上预训练，参数 0.4B-5B，姿态估计 mAP 提升 +4）；DeepSeek-OCR-2（结合 SAM ViT-B 与 Qwen2 混合注意力编码器，通过 MLP 连接 DeepSeek-V2 MoE 语言模型）；JetBrains 的 Mellum（基于 Qwen3-MoE 的代码生成模型，12B 总参数，每 token 激活 2.5B）。

发布 v5.10.1

v5.10.0 已被撤回，因为我们是在一个损坏的分支上发布的。抱歉各位，这是我们赶发布时发生的情况！！！

新增模型

Gemma4 unified + Gemma4 MTP

Gemma 4 12B Unified 是一个无编码器的多模态模型，包含预训练和指令微调变体。与使用专用编码器塔的标准 Gemma 4 不同，Gemma 4 12B Unified 通过轻量级线性流水线将原始输入直接投影到语言模型的 embedding 空间中。这使得架构更简单，同时保持了强大的多模态性能。

与标准 Gemma 4 的主要区别：

无视觉塔：原始像素块通过一个带有分解式 2D 位置编码的 Dense + LayerNorm 流水线直接投影到 LM 空间，取代了视觉编码器。
无音频塔：原始 16 kHz 波形样本被切分成固定长度的帧，并通过一个简单的 RMSNorm → Linear 流水线进行投影，取代了 mel 频谱图 + Conformer 编码器。
共享多模态流水线：视觉和音频都使用相同的 Gemma4UnifiedMultimodalEmbedder（RMSNorm → Linear）进行最终投影到文本隐藏空间。

你可以在 Gemma 4 发布中找到原始的 Gemma 4 12B Unified 检查点。

谁还需要编码器？(#46385) 由 @douglas-reid @sgerrard @vasqu @molbap 贡献

Sapiens2

Sapiens2 是一系列高分辨率视觉 Transformer（变换器），在约 10 亿张精选人体图像上预训练，专为以人为中心的计算机视觉任务设计，包括姿态估计、身体部位分割、表面法线估计和点图估计。模型参数规模从 0.4B 到 5B，在原生 1K 分辨率下训练，并具有用于扩展空间推理的分层 4K 变体。Sapiens2 相比前代有显著提升：姿态估计 mAP 提升 +4，身体部位分割 mIoU 提升 +24.3，法线估计误差降低 45.6%。

链接： 文档 | 论文

添加 Sapiens2 模型 (#45919) 由 @guarin 在 #45919 中贡献

DeepSeek-OCR-2

DeepSeek-OCR-2 是一个专为 OCR 优化的视觉语言模型，采用独特的架构，结合了 SAM ViT-B 视觉编码器与 Qwen2 混合注意力编码器，通过 MLP 投影器连接到 DeepSeek-V2 Mixture-of-Experts（MoE）语言模型。该模型采用混合注意力机制，对图像 token 应用双向注意力，对查询 token 应用因果注意力，从而实现高效准确的文档理解。它支持纯 OCR 任务以及具有坐标感知输出的 grounding 能力，用于将文档转换为 markdown 格式。

链接： 文档

添加 Deepseek-OCR-2 模型 (#45075) 由 @thisisiron 在 #45075 中贡献

Mellum

Mellum 是由 JetBrains 开发的专注于代码的 Mixture-of-Experts 语言模型。它基于 Qwen3-MoE 架构，采用按层类型的 RoPE 和交错滑动窗口注意力。模型总参数量为 12B，每个 token 激活 2.5B 参数，在 28 层中使用 64 个路由专家，每个 token 激活 8 个专家。

链接： 文档

feat: 添加对 JetBrains Mellum v2 代码生成模型的支持 (#46112) 由 @shadeMe 在 #46112 中贡献

[余略，详见 https://github.com/huggingface/transformers/releases/tag/v5.10.1]

译自 GitHub · 版本发布 · 录于二〇二六年六月六日