Mellum2 发布：JetBrains 的 12B 混合专家模型

Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

二〇二六年六月一日 · 英文原文

摘要

JetBrains 发布 Mellum2，一个 12B 总参数、每 token 仅激活 2.5B 参数的混合专家（MoE）模型，基于 Apache 2.0 许可证开源。该模型从零开始在自然语言和代码上训练，专注于低延迟推理，在代码生成、推理等 benchmark 上性能与类似规模模型相当，推理速度提升超 2 倍。Mellum2 适用于路由、RAG、子 agent、高吞吐量编码及私有部署等场景，技术报告已发布在 arXiv。

](https://huggingface.co/pavlichenko)

Image 2: Mellum Logo

Mellum2 是一个 12B 参数的混合专家（Mixture-of-Experts）模型，从零开始在自然语言和代码上训练而成。
该模型每个 token 仅激活 2.5B 参数，使其适用于高吞吐量、低延迟的推理。Mellum2 可用于路由、RAG、摘要、子 agent、高吞吐量编码功能以及私有部署。
该模型基于 Apache 2.0 许可证发布。
与类似规模的模型相比，Mellum2 在提供具有竞争力的 benchmark 性能的同时，推理速度提升超过 2 倍。
在 Hugging Face 上下载模型：https://huggingface.co/collections/JetBrains/mellum-2
有关架构细节、训练设置、benchmark 和评估方法，请阅读完整技术报告：https://arxiv.org/pdf/2605.31268

今天，我们发布了 Mellum2，这是一个针对低延迟文本和代码工作负载优化的开放混合专家模型。Mellum 最初是一个代码补全模型。通过 Mellum2，我们将这一基础扩展到更广泛的自然语言和软件工程任务，同时保持模型专注于高效推理和可部署性。现代 AI 系统越来越依赖多个模型调用：路由、检索、摘要、规划、验证和工具使用。其中许多操作对延迟敏感，且不需要使用最大的可用模型。Mellum2 正是针对这些工作负载而设计。

Benchmark 亮点

在我们的技术报告中，我们在代码生成、推理、科学和数学 benchmark 上对 Mellum2 进行了评估。Mellum2 与类似规模的开源模型相比具有竞争力，同时推理速度提升超过 2 倍，使其适用于高吞吐量的生产工作负载。模型架构 Mellum2 是一个混合专家模型：

模型	总参数	每个 token 的激活参数	模态	许可证
Mellum2	12B	2.5B	文本和代码	Apache 2.0

MoE 架构保持了较高的总模型容量，同时每个 token 仅激活一部分参数。这使得推理更加高效，并有助于降低实时工作负载的服务成本。Mellum2 特意专注于文本和代码，而非多模态任务。这种专精使得模型在软件工程工作负载上保持紧凑和高效。

关键用例

路由与编排

Mellum2 在多模型系统中作为轻量级路由和编排模型表现出色，包括 prompt 分类、工具选择以及中间控制流步骤。

RAG 流水线

该模型非常适合对延迟敏感的检索流水线，包括上下文压缩、摘要和检索后处理。

子 agent

Mellum2 可用于 agent 子任务，例如规划、验证、转换和上下文准备，从而减少在中间操作中调用更大模型的需求。

私有部署

由于 Mellum2 是开放的且服务效率高，它可以部署在涉及专有代码或内部数据的自托管环境中。

为什么范围明确的模型很重要

随着 AI 系统的成熟，最有效的架构正变得越来越不单一。一个前沿模型可能很强大，但生产系统通常需要多个专门组件协同工作：检索器、路由器、代码感知模型、验证器、工具调用者和更大的推理模型。我们将 Mellum2 视为一个“焦点”模型：一个快速、范围明确的模型，针对大型 AI 系统中的高频任务进行了优化。目标不是取代堆栈中的每一个模型，而是让堆栈更快、更便宜、更易于控制。

开始使用 Mellum2

如果你正在为软件工程构建 AI 系统——无论是在 IDE 中、RAG 流水线中、作为 agent 工作流的一部分，还是在私有基础设施上——Mellum2 已经可以尝试。

译自 Hugging Face · 官方博客 · 录于二〇二六年六月一日