録实録译稿议社区 24h

词术语频次

历封存归档

MoE

▅█▇▅ · 184 次 · 收录于 48 篇

Mixture of Experts · 混合专家 · 稀疏激活架构

为何MoE模型能从推测解码中获益更多研究 · Cohere · 05-21
transformers v5.9.0 工程 · GitHub Release · 05-20
vLLM 中的弹性专家并行工程 · vLLM · 05-20
LLM架构最新进展：KV共享、mHC与压缩注意力研究 · Sebastian Raschka · 05-17
sglang v0.5.12 工程 · GitHub Release · 05-17
最新开放制品（#21）：开放模型大爆发！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。评测 · Interconnects · 05-17
vllm v0.21.0 工程 · GitHub Release · 05-15
TurboQuant 首次全面研究：精度与性能评测 · vLLM · 05-15
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-15
MinT：训练与服务百万级LLM的托管基础设施研究 · HF Papers · 05-14
开放模型生态如何持续放大优势研究 · Interconnects · 05-13
sglang v0.5.11 工程 · GitHub Release · 05-12
vllm v0.19.1 工程 · GitHub Release · 05-12
transformers v5.6.2 工程 · GitHub Release · 05-12
transformers v5.8.0 工程 · GitHub Release · 05-12
vllm v0.20.2 工程 · GitHub Release · 05-12
transformers v5.7.0 工程 · GitHub Release · 05-12
Sub-32B 开放权重产品 · Artificial Analysis · 05-12
Kimi K2.6：新的领先开源权重模型产品 · Artificial Analysis · 05-12
近期开源权重模型发布产品 · Artificial Analysis · 05-12
中国AI实验室内部笔记对话 · Interconnects · 05-12
Import AI 456：RSI与经济增长；AI监管的激进可选性；神经计算机研究 · Import AI · 05-12
Import AI 454：自动化对齐研究；中国模型安全评估；HiFloat4 研究 · Import AI · 05-12
AWS 上基础模型训练与推理的构建模块工程 · HF Blog · 05-12
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-12
TurboQuant 首次全面研究：精度与性能研究 · vLLM · 05-12
MACE-Dance：用于音乐驱动舞蹈视频生成的运动-外观级联专家研究 · HF Papers · 05-11
服务 DeepSeek-V4：为什么百万 token 上下文是推理系统问题工程 · Together AI · 05-09
EMO：为涌现模块化预训练 Mixture of Experts | Ai2 研究 · Allen AI · 05-09
EMO：为涌现模块化预训练混合专家研究 · HF Blog · 05-09
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
混元3架构解析：整合Apertus、DeepSeek与Qwen MoE 工程 · X · 05-07
Gemma 4 架构近似前代，benchmark 明显提升研究 · X · 05-07
JackChen-me/open-multi-agent 工程 · GitHub · 05-07
SpecMD：推测式专家预取的全面研究研究 · Apple ML · 05-07
超越 SFT-to-RL：通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
vLLM 中的 DeepSeek V4：高效长上下文 Attention vLLM · 05-03
vLLM 中 FP8 KV-Cache 与 Attention 量化的现状工程 · vLLM · 05-03
moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
扭转 TIDE：Diffusion 大语言模型的跨架构蒸馏 HF Papers · 04-30