一声棒喝,本不立文字
偏要著録,已是二义

sebastian-raschka

现代 LLM 中 Attention 变体的可视化指南

A Visual Guide to Attention Variants in Modern LLMs

二〇二六年五月三日 · 英文原文

作者整理了含45个条目的 LLM architecture gallery,并提供可视化 model card 与海报版本。文章回顾 open-weight LLM 中的 attention 变体,包括 MHA、GQA、MLA、SWA、DeepSeek Sparse Attention、Gated Attention 与 Hybrid Attention,涉及 DeepSeek、Qwen、Gemma、Kimi、Ling、Nemotron、Sarvam 等模型。

我原本计划写一篇关于 DeepSeek V4 的文章。由于它仍未发布,我就利用这段时间做了一件在我的清单上放了很久的事:收集、整理并完善过去几年里我介绍过的不同 LLM architecture。因此,在过去两周里,我把这项工作做成了一个 LLM architecture gallery(截至本文写作时有 45 个条目),其中结合了早期文章中的材料,也补充了几个我此前尚未记录的重要 architecture。每个条目都配有一张可视化 model card,我计划定期更新这个 gallery。你可以在这里查看: https://sebastianraschka.com/llm-architecture-gallery/

Figure 1: LLM architecture gallery 及其可视化 model card 概览。

在我分享初始版本后,也有几位读者问是否会有海报版本。所以现在已经通过 Redbubble 提供了海报版本。我订购了 Medium 尺寸(26.9 x 23.4 in)来检查印刷效果,结果清晰锐利。不过,在这个尺寸下,一些最小的文字元素已经相当小了,所以如果你希望所有内容都能读清,我不建议选择更小的版本。

Figure 2: architecture gallery 的海报版本,旁边放了一些随机物体用于显示比例。

在制作 gallery 的同时,我也在写一些核心 LLM 概念的短篇解释。因此,在本文中,我想回顾近年来被开发出来、并用于重要 open-weight architecture 的各种近期 attention 变体。我的目标是让这份整理既可作为参考资料,也可作为轻量学习资源。希望它对你有用,也能带来一些帮助!

  1. Multi-Head Attention (MHA)

Self-attention 让每个 token 查看序列中其他可见 token,为它们分配权重,并利用这些权重构建输入的新的、具备上下文感知能力的表示。Multi-head attention (MHA) 是这一思想在标准 transformer 中的版本。它使用不同的 learned projection 并行运行多个 self-attention head,然后把它们的输出合并为一个更丰富的表示。

Figure 3: 使用 MHA 的示例 architecture:Olmo 2。

下面几节会先快速解释 self-attention,以便说明 MHA。这更像是一个快速概览,用于为 grouped-query attention、sliding window attention 等相关 attention 概念铺垫背景。如果你想阅读更长、更详细的 self-attention 介绍,可以查看我的长文 Understanding and Coding Self-Attention, Multi-Head Attention, Causal-Attention, and Cross-Attention in LLMs。

EXAMPLE ARCHITECTURES

GPT-2、OLMo 2 7B 和 OLMo 3 7B

1.2 Historical Tidbits And Why Attention Was Invented

Attention 早于 transformer 和 MHA。它的直接背景是用于翻译的 encoder-decoder RNN。在这些较早的系统中,encoder RNN 会逐个 token 读取源句子,并将其压缩为一系列 hidden state,或者在最简单的版本中压缩为一个最终 state。然后 decoder RNN 必须从这个有限的摘要中生成目标句子。这对短句和简单情况有效,但一旦下一个输出词所需的相关信息位于输入句子的其他位置,就会产生明显的瓶颈。

简而言之,限制在于 hidden state 无法存储无限多的信息或上下文,而有时直接回看完整输入序列会很有用。下面的翻译示例展示了这一思路的一个局限。例如,一个句子可以保留许多局部看起来合理的词选择,但如果模型过于把问题当成逐词映射,翻译仍然会失败。(上方 panel 展示了一个夸张示例:我们逐词翻译句子;显然,得到的句子语法是错误的。)实际上,正确的下一个词取决于句子级结构,也取决于该步骤中哪些更早的源词重要。当然,RNN 仍然可以把这句话翻译好,但在更长序列或知识检索任务中会遇到困难,因为如前所述,hidden state 能存储的信息是有限的。

Figure 4: 即使许多单个词的选择看起来合理,翻译也可能失败,因为句子级结构仍然重要(Original source LLMs-from-scratch)。

下一张图更直接地展示了这种变化。当 decoder 生成一个输出 token 时,它不应被限制在一条压缩记忆路径上。它应该能够直接回到更相关的输入 token。

Figure 5: Attention 通过让当前输出位置重新访问完整输入序列,而不是只依赖一个压缩 state,打破了 RNN 瓶颈(Original source LLMs-from-scratch)。

Transformers 保留了上述经过 attention 修改的 RNN 中的核心思想,但移除了 recurrence。在经典的 Attention Is All You Need 论文中,attention 成为主要的序列处理机制本身(而不再只是 RNN encoder-decoder 的一部分)。在 transformer 中,这个机制称为 self-attention,其中序列中的每个 token 都会计算相对于所有其他 token 的权重,并利用这些权重把来自其他 token 的信息混合进新的表示。Multi-head attention 则是把同一机制并行运行多次。

1.3 The Masked Attention Matrix

对于长度为 T 的 token 序列,attention 需要为每个 token 提供一行权重,因此整体上会得到一个 T x T 矩阵。每一行回答一个简单问题:在更新这个 token 时,每个可见 token 应该有多重要?在 decoder-only LLM 中,未来位置会被 mask 掉,因此下图中矩阵右上角部分呈灰色。Self-attention 的本质是在 causal mask 下学习这些 token-to-token 权重模式,然后利用它们构建具备上下文感知能力的 token 表示。

Figure 6: 一个具体的 masked attention matrix,其中每一行属于一个 token,每个条目是一个 attention weight,未来 token 的条目被 causal mask 移除(Original source Understanding and Coding Self-Attention)。

1.4 Self-Attention Internals

下一张图展示了 transformer 如何从 input embeddings X 计算 attention matrix ( A ),并进一步用它产生 transformed inputs ( Z )。这里 Q、K 和 V 分别代表 queries、keys 和 values。一个 token 的 query 表示该 token 正在寻找什么,key 表示每个 token 提供什么用于匹配,value 表示在 attention weights 计算完成后会被混合进输出的信息。

步骤如下:

Wq、Wk 和 Wv 是 weight matrices,用于将 input embeddings 投影为 Q、K 和 V

QK^T 生成原始的 token-to-token relevance scores

softmax 将这些分数转换为上一节讨论过的归一化 attention matrix A

A 应用于 V,产生 output matrix Z

注意,attention matrix 不是一个单独手写的对象。它由 Q、K 和 softmax 产生。

Figure 7: 完整的 single-head pipeline:从 input embeddings X,到归一化 attention matrix A,再到 output representations Z(Original source Understanding and Coding Self-Attention)。

下一张图展示了与上一张图相同的概念,但 attention matrix 计算被隐藏在 “scaled-dot-product attention” 框中,并且我们只对一个输入 token 执行计算,而不是对所有输入 token 执行计算。这样做是为了在下一节扩展到 multi-head attention 之前,以紧凑形式展示 single head 的 self-attention。

Figure 8: 一个 attention head 本身已经是一个完整机制。一组 learned projections 会产生一个 attention matrix 和一个具备上下文感知能力的输出流(Original source Understanding and Coding Self-Attention)。

1.5 From One Head To Multi-Head Attention

一组 Wq/Wk/Wv matrices 会得到一个 attention head,也就是一个 attention matrix 和一个 output matrix Z。(这一概念已在上一节中说明。)Multi-head attention 只是用不同的 learned projection matrices 并行运行多个这样的 head。这很有用,因为不同 head 可以专门学习不同的 token 关系。一个 head 可能关注短程局部依赖,另一个关注更广泛的语义联系,还有一个关注位置或句法结构。

Figure 9: Multi-head attention 保留了相同的基本 attention 配方,但在多个 head 上并行重复它,使模型能够同时学习多种 token-to-token 模式(Original source Understanding and Coding Self-Attention)。

  1. Grouped-Query Attention (GQA)

Grouped-query attention 是从标准 MHA 派生出的 attention 变体。它由 Joshua Ainslie 及其同事在 2023 年论文 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 中提出。它不是为每个 query head 分配各自的 keys 和 values,而是让多个 query heads 共享同一组 key-value projections,从而使 KV caching 便宜得多(主要体现在内存减少),同时不大幅改变整体 decoder 配方。

Figure 10: GQA 保持与 MHA 相同的整体 attention 模式,但通过让多个 query heads 共享 key-value heads,减少 key-value heads 的数量(Original source: The Big LLM Architecture Comparison)。

EXAMPLE ARCHITECTURES

Dense: Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B、SmolLM3 3B 和 Tiny Aya 3.35B。

Sparse (Mixture-of-Experts): Llama 4 Maverick、Qwen3 235B-A22B、Step 3.5 Flash 196B 和 Sarvam 30B。

2.1 Why GQA Became Popular

在我的 architecture comparison article 中,我把 GQA 描述为经典 multi-head attention (MHA) 的新标准替代方案。原因是标准 MHA 为每个 head 提供自己的 keys 和 values,从建模角度看更优,但在推理期间需要把所有这些 state 保存在 KV cache 中时,成本很高。

在 GQA 中,我们保留较多的 query heads,但减少 key-value heads 的数量,并让多个 queries 共享它们。这会降低参数量和 KV-cache 流量,同时不像 multi-head latent attention (MLA) 那样需要大幅改变实现,MLA 会在后文讨论。实践中,这使它成为许多实验室非常流行的选择:它比 MHA 便宜,但比 MLA 这类更新的重压缩替代方案更容易实现。

2.2 GQA Memory Savings

GQA 在 KV storage 上带来很大节省,因为每层保留的 key-value heads 越少,每个 token 需要缓存的 state 就越少。因此,随着 sequence length 增长,GQA 变得更有用。

GQA 也是一个连续谱。如果我们一路减少到只剩一个共享 K/V group,就基本进入了 multi-query attention 的范围,它更便宜,但可能更明显地损害建模质量。最佳折中通常位于 multi-query attention(1 个共享 group)和 MHA(K/V groups 数量等于 queries 数量)之间,在这里 cache 节省很大,而相对于 MHA 的建模性能下降仍然较小。

Figure 11: 越低越好。一旦 context window 变长,KV-cache 节省会更加明显。(Original source: LLMs-from-scratch GQA materials)

2.3 Why GQA Still Matters In 2026

MLA 等更高级变体正在变得流行,因为它们可以在相同 KV 效率水平下提供更好的建模性能(例如 DeepSeek-V2 论文的 ablation studies 中所讨论的那样),但它们的实现更复杂,attention stack 也更复杂。GQA 仍然有吸引力,因为它稳健、更容易实现,也更容易训练(根据我的经验,所需的 hyperparameter tuning 更少)。

这也是为什么一些较新的发布仍然有意保持经典设计。例如,在我的 Spring Architectures 文章中,我提到 MiniMax M2.5 和 Nanbeige 4.1 都是保持非常经典的模型,只使用 grouped-query attention,没有叠加其他效率技巧。Sarvam 也是一个特别有用的对照点:30B 模型保留经典 GQA,而 105B 版本切换到 MLA。

Figure 12: 105B Sarvam(使用 MLA)与 30B Sarvam(使用 GQA)的总 KV cache size 对比,并与 plain MHA 对比。

  1. Multi-Head Latent Attention (MLA)

Multi-head Latent Attention (MLA) 背后的动机与 Grouped-Query Attention (GQA) 类似。两者都是用于降低 KV-cache 内存需求的方案。GQA 和 MLA 的区别在于,MLA 通过压缩要存储的内容来缩小 cache,而不是通过共享 heads 来减少存储的 K/V 数量。

Figure 13: 与 GQA 不同,MLA 不是通过分组 heads 来降低 KV 成本。它通过缓存压缩后的 latent representation 来降低成本。注意,它也应用于 query,但为简洁起见图中未展示(Original source: The Big LLM Architecture Comparison)。

MLA 最初在 DeepSeek-V2 论文中提出,后来成为 DeepSeek 时代的一个标志性想法(尤其是在 DeepSeek-V3 和 R1 之后)。它比 GQA 更难实现,也更难部署服务,但如今在 model size 和 context length 大到 cache 流量开始占主导时,也往往更有吸引力,因为在相同内存削减比例下,它可能维持更好的建模性能(后文会进一步说明)。

EXAMPLE ARCHITECTURES

DeepSeek V3、Kimi K2、GLM-5、Ling 2.5、Mistral Large 3 和 Sarvam 105B

3.1 Compression, Not Sharing

MLA 不像 MHA 和 GQA 那样缓存全分辨率 key 和 value tensors,而是存储 latent representation,并在需要时重建可用 state。本质上,它是一种嵌入 attention 内部的 cache compression 策略,如上一张图所示。下图展示了它相对于普通 MHA 的节省。

Figure 14: 一旦 context length 增长,缓存 latent representation 而不是完整 K/V tensors 所带来的节省会非常明显(Original source: LLMs-from-scratch MLA section)。

3.2 MLA Ablation Studies

DeepSeek-V2 论文提供了一些 ablation,其中 GQA 在建模性能上看起来不如 MHA,而 MLA 则保持得好得多,在细致调优时甚至可以超过 MHA。这比“它(也)节省内存”要强得多。换句话说,对 DeepSeek 来说,MLA 是一种更可取的 attention mechanism,不仅因为它高效,还因为它在大规模下看起来是一种保质量的效率改进。(但同事也告诉我,MLA 只有在一定规模下才效果好。对于较小模型,比如

Figure 15: 在这里 GQA 低于 MHA,而 MLA 仍具竞争力,甚至可以略微超过它。Underlying paper: DeepSeek-V2。

下面再次对比 30B Sarvam 中的 GQA 与 105B Sarvam 中的 MLA。

Figure 16: GQA 和 MLA 从不同方向解决同一个瓶颈。权衡点在于简单性与更大模型上的更好建模性能。

3.3 How MLA Spread After DeepSeek

DeepSeek V3/R1、V3.1 等在 V2 引入后使这一设计常态化,之后它开始出现在第二波 architecture 中。Kimi K2 保留了 DeepSeek 配方并扩大规模。GLM-5 采用 MLA,并结合 DeepSeek Sparse Attention(来自 DeepSeek V3.2)。Ling 2.5 将 MLA 与 linear-attention hybrid 配对。Sarvam 发布了两个模型,其中 30B 模型保留经典 GQA,105B 模型切换到 MLA。

最后这组对照特别有用,因为它把技术复杂性讨论放到一边。也就是说,Sarvam 团队实现了两种变体,并有意选择对一个变体使用 GQA、对另一个变体使用 MLA。因此,从某种意义上说,这让 MLA 不再像一个理论替代方案,而更像是当一个模型家族扩展规模后的一条具体 architecture 升级路径。

  1. Sliding Window Attention (SWA)

Sliding window attention 通过限制每个位置可 attend 的先前 token 数量,降低 long-context inference 的内存和计算成本。每个 token 不是 attend 到整个 prefix,而是只 attend 到其位置附近的一个固定近期 token 窗口。由于 attention 被限制在局部 token 邻域内,这一机制通常也称为 local attention。一些 architecture 会将这些 local layers 与偶尔出现的 global attention layers 结合起来,使信息仍然可以在整个序列中传播。

Figure 17: 概念转变很简单。普通 attention 是 global attention,而 sliding-window attention 是 local attention。Global attention 让每个 token 看到完整 prefix;SWA 把许多层变为 local attention layers(Original source: The Big LLM Architecture Comparison)。

EXAMPLE ARCHITECTURES

Gemma 3 27B、OLMo 3 32B、Xiaomi MiMo-V2-Flash、Arcee Trinity、Step 3.5 Flash 和 Tiny Aya

4.1 Gemma 3 As A Reference Point

Gemma 3 仍然是近期最清晰的 SWA 示例之一,因为它很容易与 Gemma 2 对比。Gemma 2 已经使用了 hybrid attention 设置,local 和 global layers 的比例为 1:1,window 为 4096 个 token。Gemma 3 进一步推进到 5:1 的比例,并将 window size 降至 1024。

关键发现并不是 local attention 更便宜,因为这一点早已为人所知。这里从 Gemma 3 ablation study 得出的更有意思结论是,更激进地使用这种方式似乎只会轻微损害建模性能。

Gemma ablation study 表明,更小的 window 和更激进的 local:global ratio 对 perplexity 的影响很小。Underlying paper: Gemma 3 article(Original source: The Big LLM Architecture Comparison)。

4.2 The Ratio And Window Size

实践中,说一个模型“uses SWA”并不意味着它只依赖 SWA。通常真正重要的是 local-to-global layer pattern 和 attention window size。例如:

Gemma 3 和 Xiaomi 使用 5:1 的 local-to-global pattern。

OLMo 3 和 Arcee Trinity 使用 3:1 pattern。

Xiaomi 还使用 128 的 window size,这比 Gemma 的 1024 小得多,也因此更激进。

SWA 本质上是一个可以调得更激进或更保守的旋钮。

Figure 18: long-context 节省来自把许多 full-attention layers 转换为 local layers,从而减少这些层需要考虑的 cached context 数量(Original source: LLMs-from-scratch SWA materials)。

4.3 Combining SWA with GQA

SWA 经常与 GQA 一起出现,因为这两个想法解决的是同一个推理问题的不同部分。SWA 减少一个 local layer 必须考虑的 context 数量。GQA 减少每个 token 向 cache 贡献的 key-value state 数量。因此,许多近期 dense models 同时使用两者,而不是把它们当作替代方案。Gemma 3 在这里同样是一个很好的参考点,因为它在同一 architecture 中结合了 sliding window attention 和 grouped-query attention。

  1. DeepSeek Sparse Attention (DSA)

DeepSeek Sparse Attention 是 DeepSeek V3.2 系列中出现的 architecture 改动之一,后来又出现在 GLM-5 中。具体来说,DeepSeek V3.2 将其与 Multi-head Latent Attention (MLA) 结合,而 GLM-5 也出于同样的总体原因采用了这一组合,即在 context lengths 变大时降低推理成本。

EXAMPLE ARCHITECTURES

DeepSeek V3.2 和 GLM-5

5.1 Changes Relative To Sliding-Window Attention

在 sliding-window attention 中,当前 token 不会 attend 到完整 prefix,而只会 attend 到一个固定 local window。DeepSeek Sparse Attention 背后也是同一个宽泛思路:每个 token 也只 attend 到先前 token 的一个子集。不过,被选择的 token 不是由固定宽度的 local window 决定的。相反,DeepSeek Sparse Attention 使用 learned sparse pattern。

简而言之,它使用 indexer-plus-selector 设置,其中 lightning indexer 计算 relevance scores,而 token selector 只保留一小组得分高的过去位置。token 子集的选择方式是它与 sliding-window attention 的主要区别。Sliding-window attention 硬编码局部性。DeepSeek Sparse Attention 仍然把 attention 限制在一个子集上,但它让模型决定哪些先前 token 值得重新访问。

Figure 19: 与 sliding-window attention 类似,DeepSeek Sparse Attention 也把每个 token 限制为只能 attend 到先前 token 的一个子集,但它不是用固定 local window 来做到这一点(Original source: From DeepSeek V3 to V3.2: Architecture, Sparse Attention, and RL Updates)。

5.2 DeepSeek Sparse Attention and MLA

DeepSeek V3.2 同时使用 Multi-head Latent Attention (MLA) 和 DeepSeek Sparse Attention。MLA 通过压缩存储内容来降低 KV-cache 成本。DeepSeek Sparse Attention 减少模型需要重新访问的先前 context 数量。换句话说,一个优化 cache representation,另一个在其上优化 attention pattern。

Figure 20: DeepSeek V3.2 是显然的参考点,因为这个模型家族与 sparse-attention 思想关联最紧密。

Sparse pattern 不是随机的。第一阶段是 lightning indexer,它为每个新的 query token 对先前 token 打分。它使用 MLA 的压缩 token representations,并在先前 context 上计算 learned similarity score,从而让模型能够排序哪些更早位置值得重新访问。第二阶段是 token selector。它只保留较小的高分子集,例如过去位置的 top- k 集合,并把该子集转换为 sparse attention mask。

因此,重点在于 DeepSeek Sparse Attention 不会硬编码 sparsity pattern。它学习应该保留哪些过去 token。

Figure 21: 该机制由一个为先前 token 打分的 lightning indexer,以及一个只保留较小子集用于 attention 的 selector 组成(Original source: From DeepSeek V3 to V3.2: Architecture, Sparse Attention, and RL Updates)。

DeepSeek Sparse Attention 相对较新,实现也相对复杂,所以它还没有像 Grouped-Query Attention (GQA) 那样被广泛采用。

  1. Gated Attention

Gated attention 最好理解为一种修改过的 full-attention block,而不是一个单独的 attention family。它通常出现在 hybrid stacks 中,这些 stack 仍然保留偶尔出现的 full-attention layer 用于精确内容检索,但会在一个 otherwise familiar scaled dot-product attention block 上加入一些面向稳定性的改动。

Figure 22: Trinity Large 是一个有用的对照,因为 gated attention 不只是 Qwen 的想法(后文会进一步讨论)。在这个不同的 long-context architecture 中,gate 出现在 scaled dot-product attention 输出之后、output projection 之前(Original source: A Dream of Spring for Open-Weight LLMs)。

6.1 Where Gated Attention Appears

Qwen3-Next 和 Qwen3.5 architecture 表明,近期 hybrid(下一节会介绍)并不会在所有地方替换 attention。相反,它们用更便宜的替代方案替换大多数 attention layers,同时在 stack 中保留较少数量的 full-attention layers。Gated attention 通常就出现在这些保留下来的 full-attention layers 中。

Qwen3-Next 和 Qwen3.5 以 3:1 pattern 将它与 Gated DeltaNet 一起使用。但撇开 hybrid architecture 不谈,Trinity 在更常规的 attention stack 中也使用了一个相关的 gating idea,如上图所示。

6.2 Gated Attention Relative To Standard Attention

Qwen-style hybrids 或 Trinity(不是 hybrid)中的 gated attention block 本质上是标准 scaled-dot-product attention,并在其上添加了几项改动。在原始 Gated Attention 论文中,这些改动被表述为一种方式,使保留下来的 full-attention layers 在 hybrid stack 中表现得更可预测。这个 block 看起来仍然像标准(full)attention,但它添加了:

一个 output gate,用于在 attention result 被加回 residual 之前对其进行缩放,

一个 zero-centered QK-Norm 变体,用于替代 q 和 k 的标准 RMSNorm,

partial RoPE。

这些不是 MLA 或 linear attention 那种规模的变化,而只是应用于一个 otherwise familiar attention block 的稳定性和控制方面的改动。

Figure 23: 在 Qwen3-Next 和 Qwen3.5 中,gated attention 作为 full-attention layer 出现,周期性地打断一串 Gated DeltaNet blocks。注意,上图也包括 Gated DeltaNet,我们会在下一节介绍。

  1. Hybrid Attention

Hybrid attention 是一种更宽泛的设计模式,而不是某个具体的单一机制。总体思路是保留类似 transformer 的 stack,但用更便宜的 linear 或 state-space sequence modules 替换大多数昂贵的 full-attention layers。动机是 long-context efficiency。Full attention 随 sequence length 呈二次增长,因此一旦模型进入 128k、256k 或 1M tokens 这样的 context,attention memory 和 compute 就会变得足够昂贵,以至于在大多数层中使用更便宜的 sequence modules、同时只保留较少数量的更重 retrieval layers,会开始更合理。(不过要注意,这会带来一些建模性能上的折中。)

在 Qwen3-Next 中,这种模式表现为 Gated DeltaNet 和 Gated Attention blocks 的 3:1 混合。Gated DeltaNet 也与 Mamba-2 密切相关(例如可参见 Gated Delta Networks: Improving Mamba2 with Delta Rule 论文),该机制可以被理解为 DeltaNet-style fast-weight update 与 Mamba-style gating 的结合。后来的 architecture 保留了同样的总体思路,但换入其他轻量 sequence mixers,例如 Kimi Delta Attention、Lightning Attention 或标准 Mamba-2。

Figure 24: 基本 hybrid pattern,其中大多数 blocks 是更便宜的 sequence mixers,每第四个 block 恢复一个更重的 attention layer(Original source The Big LLM Architecture Comparison)。

7.1 Gated DeltaNet in Qwen3-Next

据我所知,第一个接近旗舰级 LLM、并采用 hybrid attention 的重要例子是 2025 年的 Qwen3-Next。它没有完全移除 attention,而是将三个 Gated DeltaNet blocks 与一个 Gated Attention block 混合使用。在这里,轻量 Gated DeltaNet blocks 承担大部分 long-context 工作,并使 memory growth 比 full attention 平坦得多。较重的 gated-attention layer 仍然保留,因为 DeltaNet 在基于内容的检索上不够精确。

在 Gated DeltaNet block 内部,模型会计算 query、key 和 value vectors,以及两个 learned gates(α, β)。它不是形成常见的 token-to-token attention matrix,而是使用 delta-rule update 写入一个小型 fast-weight memory。粗略地说,这个 memory 存储过去信息的压缩运行摘要,而 gates 控制新信息添加多少,以及先前 state 保留多少。这使 Gated DeltaNet 成为一种 linear-attention 或 recurrent-style mechanism,而不只是 MHA 的又一个小改动。

相对于 Mamba-2,二者的密切联系在于它们都属于 linear-time gated sequence-model family,但 Gated DeltaNet 使用 DeltaNet-style fast-weight memory update,而不是 Mamba state-space update。

Figure 25: hybrid 背后的实际动机体现在这里的 memory curve 中。带有 Gated DeltaNet 的 hybrid stacks 随 context length 增长得比普通 full attention 慢得多(Original source LLMs-from-scratch DeltaNet materials)。

Qwen3.5 将此前 Qwen3-Next 的 hybrid 引入 Qwen 的主旗舰系列,这是一个有意思的变化。这基本表明 hybrid strategy 是成功的,而且我们未来可能会看到更多采用这种 architecture 的模型。

Figure 26: Qwen3.5 表明 Qwen 团队把之前 Qwen3-Next 的旁支提升到了主模型线,而不是把它留作一次性的效率变体(Original source A Dream of Spring for Open-Weight LLMs)。

7.2 Kimi Linear And Modified Delta Attention

Kimi Linear 保留了同样宽泛的 transformer skeleton 和相同的 3:1 pattern,但它改变了配方的两半。在轻量一侧,Kimi Delta Attention 是 Gated DeltaNet 的一个改进。Qwen3-Next 使用每个 head 一个 scalar gate 来控制 memory decay,而 Kimi 使用 channel-wise gating,这让 memory update 的控制更细。

在较重一侧,Kimi 用 gated MLA layers 替换 Qwen3-Next 的 gated-attention layers。因此,它仍然与 Qwen3-Next 和 Qwen3.5 属于同一个更宽泛的模式,但两个组成部分都(略有)变化。也就是说,大多数层仍然由更便宜的 linear-style mechanism 处理,而周期性出现的较重层仍然保留,用于更强的检索。

Figure 27: Kimi Linear 保留了同样的整体 hybrid pattern,同时改变了 stack 的轻量一侧和较重 attention 一侧(Original source The Big LLM Architecture Comparison)。

7.3 Ling 2.5 And Lightning Attention

Ling 2.5 展示了轻量一侧的另一次替换。Ling 没有使用 Gated DeltaNet,而是使用一种稍微更简单的 recurrent linear attention 变体,称为 Lightning Attention。在较重一侧,它保留了来自 DeepSeek 的 MLA。大多数 sequence mixing 发生在更便宜的 linear-attention blocks 中,同时保留较少数量的较重层,以维持更强的检索能力。不同之处在于,这里的具体轻量机制变成了 Lightning Attention,而不是 DeltaNet 或 Kimi Delta Attention。

Figure 28: Ling 2.5 和 Qwen3.5 都是 linear-attention hybrids,尽管 Ling 换入了 Lightning Attention 和 MLA,而不是 Qwen 配方(Original source A Dream of Spring for Open-Weight LLMs)。

Ling 2.5 更偏向 long-context efficiency,而不是绝对 benchmark 领先。根据 Ling 团队的说法,在 32k tokens 下,它的速度据称显著快于 Kimi K2,这正是这些 hybrid 想要获得的实际收益。

Figure 29: Ling 2.5 被定位为一次明显的效率升级,在相同 1-trillion-parameter 规模下,32k-token throughput 远高于 Kimi K2(Original source Ling 2.5 model hub page)。

Nemotron And Mamba-2

Nemotron 把这一模式进一步推离 transformer baseline。Nemotron 3 Nano 是一个 Mamba-Transformer hybrid,它将 Mamba-2 sequence-modeling blocks 与 sparse MoE layers 交错使用,并且只在少数层中使用 self-attention。这是上述同一基本权衡的更极端版本。在这里,轻量 sequence module 是 Mamba-2 state-space block,而不是 DeltaNet-style fast-weight update,但基本权衡类似。

Figure 30: Nemotron 3 Nano 用 Mamba-2 承担大部分 sequence modeling 工作,self-attention 只出现在少数层中(Original source The Big LLM Architecture Comparison)。

更大的 Nemotron 3 Super 保留了 Mamba-2 hybrid attention 方法,并加入其他面向效率的改动,例如 latent MoE 和用于 speculative decoding 的 shared-weight multi-token prediction (MTP)。

Figure 31: Nemotron 3 Super 保留 Mamba-2 hybrid attention pattern,同时在其上加入 latent MoE 和 shared-weight MTP(Original source The Big LLM Architecture Comparison)。

Conclusion

当然,文献中还有许多更多(大多偏 niche)的 attention 变体,本文没有覆盖。本文的重点是那些当前用于 state-of-the-art(open-weight)模型的变体。

具体来说,我很期待看到:(1)全新的 Mamba-3 layers 被整合进上述 hybrid architectures(替换 Gated DeltaNet);(2)attention residuals 被更普遍地使用。

实践中,你可能也会想知道当前“最好”的 architecture 是什么。这很难回答,因为目前没有公开实验在相同训练数据等条件下训练不同 architecture。因此,我们现在只能回答针对某个给定问题,最好的(已训练)模型选择是什么。

在我看来,hybrid architectures 仍然比较新,其主要卖点主要是(long-context)效率,而不是单纯的建模性能。因此,我认为它们非常适合 agent contexts(例如 OpenClaw)。就我个人而言,hybrid architectures 的一个问题还在于 inference stacks 尚未充分优化;在本地运行 LLM 时,我发现使用更经典的设置,例如带 grouped-query attention 的 GPT-OSS,能获得更好的 tok/sec throughput。

无论如何,我很好奇 DeepSeek V4 会带来什么,因为在最近 2 年里,DeepSeek 一直是相当可靠的趋势引领者。

译自 sebastian-raschka · 录于 二〇二六年五月三日