EpiCache:资源受限环境下的长期对话情景式KV缓存管理
EpiCache: Episodic KV Cache Management for Long-Term Conversation on Resource-Constrained Environments
摘要
现代大语言模型(LLM)将上下文长度扩展至数百万token,但KV缓存随对话历史线性增长,导致内存占用超出设备限制。现有KV缓存压缩方法多在处理完整上下文后才进行驱逐,产生无上限的峰值内存占用;依赖查询的驱逐方式又将缓存语义局限为单一查询,限制了模型在长对话中的连贯回复生成能力。
现代大语言模型(LLM)将上下文长度扩展至数百万 token,使其能够基于长对话历史生成连贯且个性化的回复。然而,键值(KV)缓存会随对话历史的延长而线性增长,导致模型的内存占用迅速超出设备限制。尽管近期提出的 KV 缓存压缩方法试图降低内存使用,但大多数方法在处理完整个上下文后才进行缓存驱逐,从而产生无上限的峰值内存占用。此外,依赖查询的驱逐方式将缓存语义局限为单一查询,导致……
译自 Apple · ML Research · 录于 二〇二六年五月二十七日