实録译稿 社区 24h

术语频次

封存归档

prefix caching

▄█▂ · 12 次 · 收录于 4 篇

前缀缓存 · 复用相同前缀的 KV cache

  1. sglang v0.5.11 工程 · GitHub Release · 05-12
  2. 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题 工程 · Together AI · 05-09
  3. vLLM V0 到 V1:RL 中纠错前先确保正确性 工程 · HF Blog · 05-07
  4. vLLM 中的 DeepSeek V4:高效长上下文 Attention vLLM · 05-03