Mellum2 发布:JetBrains 的 12B 混合专家模型
Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains
JetBrains 发布 Mellum2,一个 12B 总参数、每 token 仅激活 2.5B 参数的混合专家(MoE)模型,基于 Apache 2.0 许可证开源。该模型从零开始在自然语言和代码上训练,专注于低延迟推理,在代码生成、推理等 benchmark 上性能与类似规模模型相当,推理速度提升超 2 倍。Mellum2 适用于路由、RAG、子 agent、高吞吐量编码及私有部署等场景,技术报告已发布在 arXiv。
](https://huggingface.co/pavlichenko)
- Mellum2 是一个 12B 参数的混合专家(Mixture-of-Experts)模型,从零开始在自然语言和代码上训练而成。
- 该模型每个 token 仅激活 2.5B 参数,使其适用于高吞吐量、低延迟的推理。Mellum2 可用于路由、RAG、摘要、子 agent、高吞吐量编码功能以及私有部署。
- 该模型基于 Apache 2.0 许可证发布。
- 与类似规模的模型相比,Mellum2 在提供具有竞争力的 benchmark 性能的同时,推理速度提升超过 2 倍。
- 在 Hugging Face 上下载模型:https://huggingface.co/collections/JetBrains/mellum-2
- 有关架构细节、训练设置、benchmark 和评估方法,请阅读完整技术报告:https://arxiv.org/pdf/2605.31268
今天,我们发布了 Mellum2,这是一个针对低延迟文本和代码工作负载优化的开放混合专家模型。Mellum 最初是一个代码补全模型。通过 Mellum2,我们将这一基础扩展到更广泛的自然语言和软件工程任务,同时保持模型专注于高效推理和可部署性。现代 AI 系统越来越依赖多个模型调用:路由、检索、摘要、规划、验证和工具使用。其中许多操作对延迟敏感,且不需要使用最大的可用模型。Mellum2 正是针对这些工作负载而设计。
Benchmark 亮点
在我们的技术报告中,我们在代码生成、推理、科学和数学 benchmark 上对 Mellum2 进行了评估。Mellum2 与类似规模的开源模型相比具有竞争力,同时推理速度提升超过 2 倍,使其适用于高吞吐量的生产工作负载。模型架构 Mellum2 是一个混合专家模型:
| 模型 | 总参数 | 每个 token 的激活参数 | 模态 | 许可证 |
|---|---|---|---|---|
| Mellum2 | 12B | 2.5B | 文本和代码 | Apache 2.0 |
MoE 架构保持了较高的总模型容量,同时每个 token 仅激活一部分参数。这使得推理更加高效,并有助于降低实时工作负载的服务成本。Mellum2 特意专注于文本和代码,而非多模态任务。这种专精使得模型在软件工程工作负载上保持紧凑和高效。
关键用例
路由与编排
Mellum2 在多模型系统中作为轻量级路由和编排模型表现出色,包括 prompt 分类、工具选择以及中间控制流步骤。
RAG 流水线
该模型非常适合对延迟敏感的检索流水线,包括上下文压缩、摘要和检索后处理。
子 agent
Mellum2 可用于 agent 子任务,例如规划、验证、转换和上下文准备,从而减少在中间操作中调用更大模型的需求。
私有部署
由于 Mellum2 是开放的且服务效率高,它可以部署在涉及专有代码或内部数据的自托管环境中。
为什么范围明确的模型很重要
随着 AI 系统的成熟,最有效的架构正变得越来越不单一。一个前沿模型可能很强大,但生产系统通常需要多个专门组件协同工作:检索器、路由器、代码感知模型、验证器、工具调用者和更大的推理模型。我们将 Mellum2 视为一个“焦点”模型:一个快速、范围明确的模型,针对大型 AI 系统中的高频任务进行了优化。目标不是取代堆栈中的每一个模型,而是让堆栈更快、更便宜、更易于控制。
开始使用 Mellum2
如果你正在为软件工程构建 AI 系统——无论是在 IDE 中、RAG 流水线中、作为 agent 工作流的一部分,还是在私有基础设施上——Mellum2 已经可以尝试。
