词
历KV cache
Key-Value 缓存 · 推理时重用历史计算
- Nemotron-Labs 扩散语言模型实现光速级文本生成
- 全注意力回归:百步训练内将全注意力转为稀疏
- vLLM x Novita AI:PegaFlow 实现生产级外部 KV 缓存
- vLLM 中的弹性专家并行
- 大规模推理基准测试:编码智能体
- LongLive-2.0:面向长视频生成的NVFP4并行基础设施
- LLM架构最新进展:KV共享、mHC与压缩注意力
- sglang v0.5.12
- 解锁连续批处理中的异步性
- vLLM x Mooncake 规模化服务 Agent 工作负载
- TurboQuant 首次全面研究:精度与性能
- vLLM 登顶 Artificial Analysis 排行榜
- 开源 Qwen3.5 小型 LLM 实现,Gated DeltaNet 不增加 KV cache 大小
- 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力
- 如何实现真正的无服务器GPU
- transformers v5.8.0
- vllm v0.20.2
- transformers v5.7.0
- AWS 上基础模型训练与推理的构建模块
- vLLM 登顶 Artificial Analysis 排行榜
- TurboQuant 首次全面研究:精度与性能
- 自适应并行推理:高效推理扩展的下一范式
- 用一个 Python 字典将多模态推理性能提升 >10%
- 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题
- rohitg00/从零开始的 AI 工程
- NGC论文提出用RL训练LLM管理自身KV cache
- Stream-T1:用于流式视频生成的 Test-Time Scaling
- 用 vLLM x Mooncake 大规模服务 Agentic 工作负载
- Microsoft 在 NSDI 2026:大规模网络系统进展
- 随机 KV 路由:实现自适应深度维度缓存共享
- MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2
- MolmoAct2:面向现实世界部署的动作推理模型
- Qwen3.6-27B-FP8
- 现代 LLM 中 Attention 变体的可视化指南
- Qwen3.6-27B
- vLLM 中的 DeepSeek V4:高效长上下文 Attention
- vLLM 中 FP8 KV-Cache 与 Attention 量化的现状
- deepseek-ai/DeepSeek-V4-Pro
- vLLM 中混合 SSM 模型的分离式 Serving
- deepseek-ai/DeepSeek-V4-Flash
- DeepSeek-V4 Pro 现已在 Together AI 上可用
- Diffusion Templates:用于可控 Diffusion 的统一插件框架