词
历speculative decoding
推测解码 · 用小模型加速大模型推理
- 为何MoE模型能从推测解码中获益更多
- 大规模推理基准测试:编码智能体
- sglang v0.5.12
- vllm v0.21.0
- vLLM 登顶 Artificial Analysis 排行榜
- sglang v0.5.11
- transformers v5.8.0
- vLLM 登顶 Artificial Analysis 排行榜
- rohitg00/从零开始的 AI 工程
- 支撑大规模高效推理的基础研究
- 现代 LLM 中 Attention 变体的可视化指南
- vLLM 中 FP8 KV-Cache 与 Attention 量化的现状
- 通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts
- vLLM 中混合 SSM 模型的分离式 Serving
- 用分布感知 speculative decoding 将 RL rollouts 加速最高 50%