@rasbt 新文章:近期 LLM 架构进展视觉导览,从 Gem…
@rasbt New article: a visual tour of recent LLM architecture advances, from Gem…
摘要
该文以视觉导览形式梳理了从Gemma 4到DeepSeek V4的近期LLM架构进展,重点聚焦长上下文效率优化。涉及的技术包括KV共享、逐层嵌入、逐层注意力预算、压缩注意力及mHC。文章通过对比不同模型的设计,展示了这些方法在提升长序列处理能力上的具体应用。
新文章:从 Gemma 4 到 DeepSeek V4,一次近期 LLM 架构进展的视觉导览。
我聚焦于长上下文效率优化,如 KV 共享(KV sharing)、逐层嵌入(per-layer embeddings)、逐层注意力预算(layer-wise attention budgets)、压缩注意力(compressed attention)和 mHC。
译自 X · 研究者一手 · 录于 二〇二六年五月十六日