録实録译稿议社区 24h

词术语频次

历封存归档

KV cache

▇▅█▂ · 394 次 · 收录于 42 篇

Key-Value 缓存 · 推理时重用历史计算

Nemotron-Labs 扩散语言模型实现光速级文本生成产品 · HF Blog · 05-23
全注意力回归：百步训练内将全注意力转为稀疏研究 · HF Papers · 05-23
vLLM x Novita AI：PegaFlow 实现生产级外部 KV 缓存工程 · vLLM · 05-20
vLLM 中的弹性专家并行工程 · vLLM · 05-20
大规模推理基准测试：编码智能体评测 · Together AI · 05-20
LongLive-2.0：面向长视频生成的NVFP4并行基础设施研究 · HF Papers · 05-19
LLM架构最新进展：KV共享、mHC与压缩注意力研究 · Sebastian Raschka · 05-17
sglang v0.5.12 工程 · GitHub Release · 05-17
解锁连续批处理中的异步性工程 · HF Blog · 05-15
vLLM x Mooncake 规模化服务 Agent 工作负载工程 · vLLM · 05-15
TurboQuant 首次全面研究：精度与性能评测 · vLLM · 05-15
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-15
开源 Qwen3.5 小型 LLM 实现，Gated DeltaNet 不增加 KV cache 大小研究 · X · 05-13
印度发布 Sarvam 30B 和 105B 开源推理模型，105B 采用 DeepSeek 风格 MLA 注意力研究 · X · 05-13
如何实现真正的无服务器GPU 工程 · Modal · 05-12
transformers v5.8.0 工程 · GitHub Release · 05-12
vllm v0.20.2 工程 · GitHub Release · 05-12
transformers v5.7.0 工程 · GitHub Release · 05-12
AWS 上基础模型训练与推理的构建模块工程 · HF Blog · 05-12
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-12
TurboQuant 首次全面研究：精度与性能研究 · vLLM · 05-12
自适应并行推理：高效推理扩展的下一范式研究 · BAIR · 05-09
用一个 Python 字典将多模态推理性能提升 >10% 工程 · Modal · 05-09
服务 DeepSeek-V4：为什么百万 token 上下文是推理系统问题工程 · Together AI · 05-09
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
NGC论文提出用RL训练LLM管理自身KV cache 研究 · X · 05-07
Stream-T1：用于流式视频生成的 Test-Time Scaling 研究 · HF Papers · 05-07
用 vLLM x Mooncake 大规模服务 Agentic 工作负载工程 · vLLM · 05-07
Microsoft 在 NSDI 2026：大规模网络系统进展 MS Research · 05-06
随机 KV 路由：实现自适应深度维度缓存共享 Apple ML · 05-06
MolmoAct 2：面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
MolmoAct2：面向现实世界部署的动作推理模型 HF Papers · 05-05
Qwen3.6-27B-FP8 产品 · Qwen · 05-03
现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
Qwen3.6-27B 产品 · Qwen · 05-03
vLLM 中的 DeepSeek V4：高效长上下文 Attention vLLM · 05-03
vLLM 中 FP8 KV-Cache 与 Attention 量化的现状工程 · vLLM · 05-03
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
Diffusion Templates：用于可控 Diffusion 的统一插件框架 HF Papers · 04-30