词
历vLLM
高性能 LLM 推理引擎,支持 PagedAttention 和连续批处理
- Modal C轮融资:以46.5亿美元估值募资3.55亿美元
- 为何MoE模型能从推测解码中获益更多
- vLLM x Novita AI:PegaFlow 实现生产级外部 KV 缓存
- vLLM 中的弹性专家并行
- VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
- vllm v0.21.0
- Intern-S2-Preview
- Intern-S2-Preview-FP8
- Granite Embedding Multilingual R2:Apache 2.0 开源多语言嵌入,32K 上下文 — 最佳 Sub-100M 检索质量
- Qwen3-TTS:低成本、高性能文本转语音
- vLLM x Mooncake 规模化服务 Agent 工作负载
- TurboQuant 首次全面研究:精度与性能
- vLLM 登顶 Artificial Analysis 排行榜
- 如何实现真正的无服务器GPU
- vllm v0.19.1
- vllm v0.20.2
- AWS 上基础模型训练与推理的构建模块
- vLLM 登顶 Artificial Analysis 排行榜
- MiniCPM-V-4.6-gguf
- TurboQuant 首次全面研究:精度与性能
- MiniCPM-V-4.6-Thinking-gguf
- MiniCPM-V-4.6-Thinking
- MiniCPM-V-4.6-AWQ
- MiniCPM-V-4.6-BNB
- MiniCPM-V-4.6-GPTQ
- MiniCPM-V-4.6-Thinking-AWQ
- MiniCPM-V-4.6-Thinking-GPTQ
- MiniCPM-V-4.6-Thinking-BNB
- MachinaCheck:基于 AMD MI300X 构建 Multi-Agent CNC 可制造性系统
- open-multi-agent/open-multi-agent
- 用一个 Python 字典将多模态推理性能提升 >10%
- 在 Modal 上构建 RL 定理证明工作流
- CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型
- 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题
- MiniCPM-V-4_5-GPTQ
- rohitg00/从零开始的 AI 工程
- JackChen-me/open-multi-agent
- 用 vLLM x Mooncake 大规模服务 Agentic 工作负载
- vLLM V0 到 V1:RL 中纠错前先确保正确性
- vllm 集成与质量恢复技术详解
- Qwen3.6-27B-FP8
- Qwen3.6-27B
- vLLM 中的 DeepSeek V4:高效长上下文 Attention
- vLLM 中 FP8 KV-Cache 与 Attention 量化的现状
- moonshotai/Kimi-K2.6
- 通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts
- vLLM 中混合 SSM 模型的分离式 Serving
- 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI