词
历hybrid attention
混合多种注意力路径的架构
- transformers v5.9.0
- LLM架构最新进展:KV共享、mHC与压缩注意力
- TurboQuant 首次全面研究:精度与性能
- TurboQuant 首次全面研究:精度与性能
- 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题
- Gemma 4 架构近似前代,benchmark 明显提升
- 现代 LLM 中 Attention 变体的可视化指南
- vLLM 中 FP8 KV-Cache 与 Attention 量化的现状
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- DeepSeek-V4 Pro 现已在 Together AI 上可用