实録译稿 社区 24h

术语频次

封存归档

KV cache

▇▅█▂ · 394 次 · 收录于 42 篇

Key-Value 缓存 · 推理时重用历史计算

  1. Nemotron-Labs 扩散语言模型实现光速级文本生成 产品 · HF Blog · 05-23
  2. 全注意力回归:百步训练内将全注意力转为稀疏 研究 · HF Papers · 05-23
  3. vLLM x Novita AI:PegaFlow 实现生产级外部 KV 缓存 工程 · vLLM · 05-20
  4. vLLM 中的弹性专家并行 工程 · vLLM · 05-20
  5. 大规模推理基准测试:编码智能体 评测 · Together AI · 05-20
  6. LongLive-2.0:面向长视频生成的NVFP4并行基础设施 研究 · HF Papers · 05-19
  7. LLM架构最新进展:KV共享、mHC与压缩注意力 研究 · Sebastian Raschka · 05-17
  8. sglang v0.5.12 工程 · GitHub Release · 05-17
  9. 解锁连续批处理中的异步性 工程 · HF Blog · 05-15
  10. vLLM x Mooncake 规模化服务 Agent 工作负载 工程 · vLLM · 05-15
  11. TurboQuant 首次全面研究:精度与性能 评测 · vLLM · 05-15
  12. vLLM 登顶 Artificial Analysis 排行榜 工程 · vLLM · 05-15
  13. 开源 Qwen3.5 小型 LLM 实现,Gated DeltaNet 不增加 KV cache 大小 研究 · X · 05-13
  14. 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力 研究 · X · 05-13
  15. 如何实现真正的无服务器GPU 工程 · Modal · 05-12
  16. transformers v5.8.0 工程 · GitHub Release · 05-12
  17. vllm v0.20.2 工程 · GitHub Release · 05-12
  18. transformers v5.7.0 工程 · GitHub Release · 05-12
  19. AWS 上基础模型训练与推理的构建模块 工程 · HF Blog · 05-12
  20. vLLM 登顶 Artificial Analysis 排行榜 工程 · vLLM · 05-12
  21. TurboQuant 首次全面研究:精度与性能 研究 · vLLM · 05-12
  22. 自适应并行推理:高效推理扩展的下一范式 研究 · BAIR · 05-09
  23. 用一个 Python 字典将多模态推理性能提升 >10% 工程 · Modal · 05-09
  24. 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题 工程 · Together AI · 05-09
  25. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  26. NGC论文提出用RL训练LLM管理自身KV cache 研究 · X · 05-07
  27. Stream-T1:用于流式视频生成的 Test-Time Scaling 研究 · HF Papers · 05-07
  28. 用 vLLM x Mooncake 大规模服务 Agentic 工作负载 工程 · vLLM · 05-07
  29. Microsoft 在 NSDI 2026:大规模网络系统进展 MS Research · 05-06
  30. 随机 KV 路由:实现自适应深度维度缓存共享 Apple ML · 05-06
  31. MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
  32. MolmoAct2:面向现实世界部署的动作推理模型 HF Papers · 05-05
  33. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  34. 现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
  35. Qwen3.6-27B 产品 · Qwen · 05-03
  36. vLLM 中的 DeepSeek V4:高效长上下文 Attention vLLM · 05-03
  37. vLLM 中 FP8 KV-Cache 与 Attention 量化的现状 工程 · vLLM · 05-03
  38. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  39. vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
  40. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  41. DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
  42. Diffusion Templates:用于可控 Diffusion 的统一插件框架 HF Papers · 04-30