词
历MoE
Mixture of Experts · 混合专家 · 稀疏激活架构
- 为何MoE模型能从推测解码中获益更多
- transformers v5.9.0
- vLLM 中的弹性专家并行
- LLM架构最新进展:KV共享、mHC与压缩注意力
- sglang v0.5.12
- 最新开放制品(#21):开放模型大爆发!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。
- vllm v0.21.0
- TurboQuant 首次全面研究:精度与性能
- vLLM 登顶 Artificial Analysis 排行榜
- MinT:训练与服务百万级LLM的托管基础设施
- 开放模型生态如何持续放大优势
- sglang v0.5.11
- vllm v0.19.1
- transformers v5.6.2
- transformers v5.8.0
- vllm v0.20.2
- transformers v5.7.0
- Sub-32B 开放权重
- Kimi K2.6:新的领先开源权重模型
- 近期开源权重模型发布
- 中国AI实验室内部笔记
- Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机
- Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4
- AWS 上基础模型训练与推理的构建模块
- vLLM 登顶 Artificial Analysis 排行榜
- TurboQuant 首次全面研究:精度与性能
- MACE-Dance:用于音乐驱动舞蹈视频生成的运动-外观级联专家
- 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题
- EMO:为涌现模块化预训练 Mixture of Experts | Ai2
- EMO:为涌现模块化预训练混合专家
- rohitg00/从零开始的 AI 工程
- 混元3架构解析:整合Apertus、DeepSeek与Qwen MoE
- Gemma 4 架构近似前代,benchmark 明显提升
- JackChen-me/open-multi-agent
- SpecMD:推测式专家预取的全面研究
- 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
- 现代 LLM 中 Attention 变体的可视化指南
- vLLM 中的 DeepSeek V4:高效长上下文 Attention
- vLLM 中 FP8 KV-Cache 与 Attention 量化的现状
- moonshotai/Kimi-K2.6
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI
- NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用
- Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni
- DeepSeek-V4 Pro 现已在 Together AI 上可用
- 扭转 TIDE:Diffusion 大语言模型的跨架构蒸馏