词
历SGLang
高效的 LLM 推理和服务框架,支持多种模型和优化
- Nemotron-Labs 扩散语言模型实现光速级文本生成
- Modal C轮融资:以46.5亿美元估值募资3.55亿美元
- 大规模推理基准测试:编码智能体
- sglang v0.5.12
- Intern-S2-Preview
- Intern-S2-Preview-FP8
- 如何实现真正的无服务器GPU
- sglang v0.5.11
- AWS 上基础模型训练与推理的构建模块
- MiniCPM-V-4.6-gguf
- MiniCPM-V-4.6-Thinking-gguf
- MiniCPM-V-4.6-Thinking
- MiniCPM-V-4.6-AWQ
- MiniCPM-V-4.6-BNB
- MiniCPM-V-4.6-GPTQ
- MiniCPM-V-4.6-Thinking-AWQ
- MiniCPM-V-4.6-Thinking-GPTQ
- MiniCPM-V-4.6-Thinking-BNB
- 自适应并行推理:高效推理扩展的下一范式
- 用一个 Python 字典将多模态推理性能提升 >10%
- 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题
- MiniCPM-V-4_5-GPTQ
- rohitg00/从零开始的 AI 工程
- Qwen3.6-27B-FP8
- Qwen3.6-27B
- moonshotai/Kimi-K2.6