録实録译稿议社区 24h

词术语频次

历封存归档

vLLM

█▃▅▂ · 1032 次 · 收录于 48 篇

高性能 LLM 推理引擎，支持 PagedAttention 和连续批处理

Modal C轮融资：以46.5亿美元估值募资3.55亿美元产品 · Modal · 05-22
为何MoE模型能从推测解码中获益更多研究 · Cohere · 05-21
vLLM x Novita AI：PegaFlow 实现生产级外部 KV 缓存工程 · vLLM · 05-20
vLLM 中的弹性专家并行工程 · vLLM · 05-20
VeRL-Omni 发布：扩散与全模态模型的简易、快速、稳定 RL 训练工程 · vLLM · 05-18
vllm v0.21.0 工程 · GitHub Release · 05-15
Intern-S2-Preview 研究 · InternLM · 05-15
Intern-S2-Preview-FP8 研究 · InternLM · 05-15
Granite Embedding Multilingual R2：Apache 2.0 开源多语言嵌入，32K 上下文 — 最佳 Sub-100M 检索质量产品 · HF Blog · 05-15
Qwen3-TTS：低成本、高性能文本转语音工程 · Baseten · 05-15
vLLM x Mooncake 规模化服务 Agent 工作负载工程 · vLLM · 05-15
TurboQuant 首次全面研究：精度与性能评测 · vLLM · 05-15
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-15
如何实现真正的无服务器GPU 工程 · Modal · 05-12
vllm v0.19.1 工程 · GitHub Release · 05-12
vllm v0.20.2 工程 · GitHub Release · 05-12
AWS 上基础模型训练与推理的构建模块工程 · HF Blog · 05-12
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-12
MiniCPM-V-4.6-gguf 工程 · OpenBMB · 05-12
TurboQuant 首次全面研究：精度与性能研究 · vLLM · 05-12
MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-BNB 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
MachinaCheck：基于 AMD MI300X 构建 Multi-Agent CNC 可制造性系统工程 · HF Blog · 05-11
open-multi-agent/open-multi-agent 工程 · GitHub · 05-10
用一个 Python 字典将多模态推理性能提升 >10% 工程 · Modal · 05-09
在 Modal 上构建 RL 定理证明工作流工程 · Modal · 05-09
CyberSecQwen-4B：为什么防御性网络安全需要小型、专用、可本地运行的模型产品 · HF Blog · 05-09
服务 DeepSeek-V4：为什么百万 token 上下文是推理系统问题工程 · Together AI · 05-09
MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
JackChen-me/open-multi-agent 工程 · GitHub · 05-07
用 vLLM x Mooncake 大规模服务 Agentic 工作负载工程 · vLLM · 05-07
vLLM V0 到 V1：RL 中纠错前先确保正确性工程 · HF Blog · 05-07
vllm 集成与质量恢复技术详解 Cohere · 05-05
Qwen3.6-27B-FP8 产品 · Qwen · 05-03
Qwen3.6-27B 产品 · Qwen · 05-03
vLLM 中的 DeepSeek V4：高效长上下文 Attention vLLM · 05-03
vLLM 中 FP8 KV-Cache 与 Attention 量化的现状工程 · vLLM · 05-03
moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts HF Papers · 05-03
vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03