transformers v5.8.0

二〇二六年六月六日 · 英文原文

摘要

Hugging Face Transformers 发布 v5.8.0，新增 DeepSeek-V4、Gemma 4 Assistant、GraniteSpeechPlus、Granite4Vision 和 EXAONE-4.5 模型。DeepSeek-V4 采用混合注意力、mHC 连接和静态哈希引导的 MoE 架构；Gemma 4 Assistant 通过 MTP 和 KV 共享实现投机解码；GraniteSpeechPlus 增强投影器以支持语音转文本；Granite4Vision 基于 LLaVA-NeXT 设计，专注于企业文档数据提取。

发布 v5.8.0

新增模型

DeepSeek-V4

DeepSeek-V4 是 DeepSeek 推出的下一代 MoE（混合专家）语言模型，在 DeepSeek-V3 的基础上引入了多项架构创新。该架构将 Multi-head Latent Attention（MLA）替换为混合局部 + 长程注意力设计，将残差连接替换为 Manifold-Constrained Hyper-Connections（mHC），并通过静态 token-id → expert-id 哈希表对前几个 MoE 层进行引导。该实现涵盖 DeepSeek-V4-Flash、DeepSeek-V4-Pro 及其 -Base 预训练变体，这些变体共享相同的架构，但在宽度、深度、专家数量和权重上有所不同。

链接： 文档 | 论文

添加 DeepSeek V4 (#45643) 由 @ArthurZucker 在 #45643 中提交

Gemma 4 Assistant

Gemma 4 Assistant 是一个小型纯文本模型，通过 Multi-Token Prediction（MTP）方法和相关的候选生成器，为 Gemma 4 模型实现投机解码。该模型与其他 Gemma 4 模型共享相同的 Gemma4TextModel 主干，但整个模型采用 KV 共享，使其能够复用目标模型填充的 KV cache，并完全跳过 pre-fill 阶段。该架构包含 cross-attention，以充分利用目标模型的上下文，使 assistant 能够在每次 drafting 轮次中更准确地预测更多 drafted token。

链接： 文档

首个模型 (#45788) 由 @SindhuRaghuram97 在 #45788 中提交

GraniteSpeechPlus

Granite Speech Plus 是 Granite Speech 的一个变体，通过沿特征维度拼接编码器的最终隐藏状态与其任意中间隐藏状态子集来增强投影器。它是一个多模态语音转文本模型，能够通过响应文本 prompt 来转录音频、提供说话人标注和词级时间戳。该模型继承了与 Granite Speech 相同的架构组件，包括语音编码器、query transformer 投影器、语言模型和可选的 LoRA adapter。

链接： 文档

支持新的 Granite-Speech-Plus 模型 (#45695) 由 @zvik 在 #45695 中提交

Granite4Vision

Granite Vision 4.1 是 IBM Research 推出的视觉语言模型，专为企业级文档数据提取设计。它专注于图表提取（Chart2CSV、Chart2Summary、Chart2Code）、表格提取（JSON、HTML、OTSL）和语义键值对提取。该模型基于 LLaVA-NeXT 构建，并引入了架构创新，包括 SigLIP2 Vision Encoder、Window Q-Former Projectors 以及具有 8 个视觉到 LLM 注入点的 DeepStack Feature Injection。

链接： 文档

添加 Granite 4.1 Vision (granite4_vision) (#45597) 由 @artem-spector 在 #45597 中提交

EXAONE-4.5

EXAONE 4.5 是首个开源权重的视觉语言模型…

[余略，详见 https://github.com/huggingface/transformers/releases/tag/v5.8.0]

译自 GitHub · 版本发布 · 录于二〇二六年六月六日