EpiCache：资源受限环境下的长期对话情景式KV缓存管理

EpiCache: Episodic KV Cache Management for Long-Term Conversation on Resource-Constrained Environments

二〇二六年五月二十七日 · 英文原文

摘要

现代大语言模型（LLM）将上下文长度扩展至数百万token，但KV缓存随对话历史线性增长，导致内存占用超出设备限制。现有KV缓存压缩方法多在处理完整上下文后才进行驱逐，产生无上限的峰值内存占用；依赖查询的驱逐方式又将缓存语义局限为单一查询，限制了模型在长对话中的连贯回复生成能力。

现代大语言模型（LLM）将上下文长度扩展至数百万 token，使其能够基于长对话历史生成连贯且个性化的回复。然而，键值（KV）缓存会随对话历史的延长而线性增长，导致模型的内存占用迅速超出设备限制。尽管近期提出的 KV 缓存压缩方法试图降低内存使用，但大多数方法在处理完整个上下文后才进行缓存驱逐，从而产生无上限的峰值内存占用。此外，依赖查询的驱逐方式将缓存语义局限为单一查询，导致……

译自 Apple · ML Research · 录于二〇二六年五月二十七日