@rasbt 新文章：近期 LLM 架构进展视觉导览，从 Gem…

@rasbt New article: a visual tour of recent LLM architecture advances, from Gem…

二〇二六年五月十六日 · 英文原文

摘要

该文以视觉导览形式梳理了从Gemma 4到DeepSeek V4的近期LLM架构进展，重点聚焦长上下文效率优化。涉及的技术包括KV共享、逐层嵌入、逐层注意力预算、压缩注意力及mHC。文章通过对比不同模型的设计，展示了这些方法在提升长序列处理能力上的具体应用。

新文章：从 Gemma 4 到 DeepSeek V4，一次近期 LLM 架构进展的视觉导览。

我聚焦于长上下文效率优化，如 KV 共享（KV sharing）、逐层嵌入（per-layer embeddings）、逐层注意力预算（layer-wise attention budgets）、压缩注意力（compressed attention）和 mHC。

译自 X · 研究者一手 · 录于二〇二六年五月十六日