GitHub · 版本发布

transformers v5.10.1

transformers v5.10.1

二〇二六年六月六日 · 英文原文

Hugging Face Transformers 发布 v5.10.1,撤回因损坏分支发布的 v5.10.0。新增模型包括:Google 的 Gemma4 Unified(无编码器多模态模型,通过线性流水线直接投影像素与音频至 LM 空间);Meta 的 Sapiens2(高分辨率视觉 Transformer,在 10 亿张人体图像上预训练,参数 0.4B-5B,姿态估计 mAP 提升 +4);DeepSeek-OCR-2(结合 SAM ViT-B 与 Qwen2 混合注意力编码器,通过 MLP 连接 DeepSeek-V2 MoE 语言模型);JetBrains 的 Mellum(基于 Qwen3-MoE 的代码生成模型,12B 总参数,每 token 激活 2.5B)。

发布 v5.10.1

v5.10.0 已被撤回,因为我们是在一个损坏的分支上发布的。抱歉各位,这是我们赶发布时发生的情况!!!

新增模型

Gemma4 unified + Gemma4 MTP

Gemma 4 12B Unified 是一个无编码器的多模态模型,包含预训练和指令微调变体。与使用专用编码器塔的标准 Gemma 4 不同,Gemma 4 12B Unified 通过轻量级线性流水线将原始输入直接投影到语言模型的 embedding 空间中。这使得架构更简单,同时保持了强大的多模态性能。

与标准 Gemma 4 的主要区别:

你可以在 Gemma 4 发布中找到原始的 Gemma 4 12B Unified 检查点。

Sapiens2

Sapiens2 是一系列高分辨率视觉 Transformer(变换器),在约 10 亿张精选人体图像上预训练,专为以人为中心的计算机视觉任务设计,包括姿态估计、身体部位分割、表面法线估计和点图估计。模型参数规模从 0.4B 到 5B,在原生 1K 分辨率下训练,并具有用于扩展空间推理的分层 4K 变体。Sapiens2 相比前代有显著提升:姿态估计 mAP 提升 +4,身体部位分割 mIoU 提升 +24.3,法线估计误差降低 45.6%。

链接: 文档 | 论文

DeepSeek-OCR-2

DeepSeek-OCR-2 是一个专为 OCR 优化的视觉语言模型,采用独特的架构,结合了 SAM ViT-B 视觉编码器与 Qwen2 混合注意力编码器,通过 MLP 投影器连接到 DeepSeek-V2 Mixture-of-Experts(MoE)语言模型。该模型采用混合注意力机制,对图像 token 应用双向注意力,对查询 token 应用因果注意力,从而实现高效准确的文档理解。它支持纯 OCR 任务以及具有坐标感知输出的 grounding 能力,用于将文档转换为 markdown 格式。

链接: 文档

Mellum

Mellum 是由 JetBrains 开发的专注于代码的 Mixture-of-Experts 语言模型。它基于 Qwen3-MoE 架构,采用按层类型的 RoPE 和交错滑动窗口注意力。模型总参数量为 12B,每个 token 激活 2.5B 参数,在 28 层中使用 64 个路由专家,每个 token 激活 8 个专家。

链接: 文档

[余略,详见 https://github.com/huggingface/transformers/releases/tag/v5.10.1]

译自 GitHub · 版本发布 · 录于 二〇二六年六月六日