録实録译稿议社区 24h

词术语频次

历封存归档

speculative decoding

█▇▇▆ · 50 次 · 收录于 15 篇

推测解码 · 用小模型加速大模型推理

为何MoE模型能从推测解码中获益更多研究 · Cohere · 05-21
大规模推理基准测试：编码智能体评测 · Together AI · 05-20
sglang v0.5.12 工程 · GitHub Release · 05-17
vllm v0.21.0 工程 · GitHub Release · 05-15
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-15
sglang v0.5.11 工程 · GitHub Release · 05-12
transformers v5.8.0 工程 · GitHub Release · 05-12
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-12
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
支撑大规模高效推理的基础研究 Together AI · 05-05
现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
vLLM 中 FP8 KV-Cache 与 Attention 量化的现状工程 · vLLM · 05-03
通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts HF Papers · 05-03
vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
用分布感知 speculative decoding 将 RL rollouts 加速最高 50% Together AI · 05-03

更新于五月二十五日 09:40