实録译稿 社区 24h

术语频次

封存归档

vLLM

█▃▅▂ · 1032 次 · 收录于 48 篇

高性能 LLM 推理引擎,支持 PagedAttention 和连续批处理

  1. Modal C轮融资:以46.5亿美元估值募资3.55亿美元 产品 · Modal · 05-22
  2. 为何MoE模型能从推测解码中获益更多 研究 · Cohere · 05-21
  3. vLLM x Novita AI:PegaFlow 实现生产级外部 KV 缓存 工程 · vLLM · 05-20
  4. vLLM 中的弹性专家并行 工程 · vLLM · 05-20
  5. VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练 工程 · vLLM · 05-18
  6. vllm v0.21.0 工程 · GitHub Release · 05-15
  7. Intern-S2-Preview 研究 · InternLM · 05-15
  8. Intern-S2-Preview-FP8 研究 · InternLM · 05-15
  9. Granite Embedding Multilingual R2:Apache 2.0 开源多语言嵌入,32K 上下文 — 最佳 Sub-100M 检索质量 产品 · HF Blog · 05-15
  10. Qwen3-TTS:低成本、高性能文本转语音 工程 · Baseten · 05-15
  11. vLLM x Mooncake 规模化服务 Agent 工作负载 工程 · vLLM · 05-15
  12. TurboQuant 首次全面研究:精度与性能 评测 · vLLM · 05-15
  13. vLLM 登顶 Artificial Analysis 排行榜 工程 · vLLM · 05-15
  14. 如何实现真正的无服务器GPU 工程 · Modal · 05-12
  15. vllm v0.19.1 工程 · GitHub Release · 05-12
  16. vllm v0.20.2 工程 · GitHub Release · 05-12
  17. AWS 上基础模型训练与推理的构建模块 工程 · HF Blog · 05-12
  18. vLLM 登顶 Artificial Analysis 排行榜 工程 · vLLM · 05-12
  19. MiniCPM-V-4.6-gguf 工程 · OpenBMB · 05-12
  20. TurboQuant 首次全面研究:精度与性能 研究 · vLLM · 05-12
  21. MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
  22. MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
  23. MiniCPM-V-4.6-AWQ 产品 · OpenBMB · 05-11
  24. MiniCPM-V-4.6-BNB 产品 · OpenBMB · 05-11
  25. MiniCPM-V-4.6-GPTQ 产品 · OpenBMB · 05-11
  26. MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
  27. MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
  28. MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
  29. MachinaCheck:基于 AMD MI300X 构建 Multi-Agent CNC 可制造性系统 工程 · HF Blog · 05-11
  30. open-multi-agent/open-multi-agent 工程 · GitHub · 05-10
  31. 用一个 Python 字典将多模态推理性能提升 >10% 工程 · Modal · 05-09
  32. 在 Modal 上构建 RL 定理证明工作流 工程 · Modal · 05-09
  33. CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型 产品 · HF Blog · 05-09
  34. 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题 工程 · Together AI · 05-09
  35. MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
  36. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  37. JackChen-me/open-multi-agent 工程 · GitHub · 05-07
  38. 用 vLLM x Mooncake 大规模服务 Agentic 工作负载 工程 · vLLM · 05-07
  39. vLLM V0 到 V1:RL 中纠错前先确保正确性 工程 · HF Blog · 05-07
  40. vllm 集成与质量恢复技术详解 Cohere · 05-05
  41. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  42. Qwen3.6-27B 产品 · Qwen · 05-03
  43. vLLM 中的 DeepSeek V4:高效长上下文 Attention vLLM · 05-03
  44. vLLM 中 FP8 KV-Cache 与 Attention 量化的现状 工程 · vLLM · 05-03
  45. moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
  46. 通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts HF Papers · 05-03
  47. vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
  48. 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03