实録译稿 社区 24h

术语频次

封存归档

speculative decoding

█▇▇▆ · 50 次 · 收录于 15 篇

推测解码 · 用小模型加速大模型推理

  1. 为何MoE模型能从推测解码中获益更多 研究 · Cohere · 05-21
  2. 大规模推理基准测试:编码智能体 评测 · Together AI · 05-20
  3. sglang v0.5.12 工程 · GitHub Release · 05-17
  4. vllm v0.21.0 工程 · GitHub Release · 05-15
  5. vLLM 登顶 Artificial Analysis 排行榜 工程 · vLLM · 05-15
  6. sglang v0.5.11 工程 · GitHub Release · 05-12
  7. transformers v5.8.0 工程 · GitHub Release · 05-12
  8. vLLM 登顶 Artificial Analysis 排行榜 工程 · vLLM · 05-12
  9. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  10. 支撑大规模高效推理的基础研究 Together AI · 05-05
  11. 现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
  12. vLLM 中 FP8 KV-Cache 与 Attention 量化的现状 工程 · vLLM · 05-03
  13. 通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts HF Papers · 05-03
  14. vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
  15. 用分布感知 speculative decoding 将 RL rollouts 加速最高 50% Together AI · 05-03