apple-ml-research
随机 KV 路由:实现自适应深度维度缓存共享
Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing
摘要
Serving transformer language models with high throughput requires caching Key-Values (KVs) to avoid redundant computation during autoregressive generation. The memory footprint of KV caching is significant and heavily impacts serving costs. This work proposes to lessen these…
以高吞吐量服务 Transformer 语言模型需要缓存 Key-Values(KV),以避免在自回归生成过程中进行冗余计算。KV 缓存的内存占用很大,并且会显著影响服务成本。本文提出降低这些内存需求的方法。尽管近期工作主要通过沿时间轴进行压缩和淘汰来减少 KV cache,我们认为深度维度提供了一条正交且稳健的优化路径。虽然已有研究表明,为每一层保留完整缓存是冗余的,但实现……
译自 apple-ml-research · 录于 二〇二六年五月八日