Hugging Face · 官方博客

Mellum2 发布:JetBrains 的 12B 混合专家模型

Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

二〇二六年六月一日 · 英文原文

JetBrains 发布 Mellum2,一个 12B 总参数、每 token 仅激活 2.5B 参数的混合专家(MoE)模型,基于 Apache 2.0 许可证开源。该模型从零开始在自然语言和代码上训练,专注于低延迟推理,在代码生成、推理等 benchmark 上性能与类似规模模型相当,推理速度提升超 2 倍。Mellum2 适用于路由、RAG、子 agent、高吞吐量编码及私有部署等场景,技术报告已发布在 arXiv。

](https://huggingface.co/pavlichenko)

Image 2: Mellum Logo

今天,我们发布了 Mellum2,这是一个针对低延迟文本和代码工作负载优化的开放混合专家模型。Mellum 最初是一个代码补全模型。通过 Mellum2,我们将这一基础扩展到更广泛的自然语言和软件工程任务,同时保持模型专注于高效推理和可部署性。现代 AI 系统越来越依赖多个模型调用:路由、检索、摘要、规划、验证和工具使用。其中许多操作对延迟敏感,且不需要使用最大的可用模型。Mellum2 正是针对这些工作负载而设计。

Benchmark 亮点

Image 3: Mellum 2 Evals

在我们的技术报告中,我们在代码生成、推理、科学和数学 benchmark 上对 Mellum2 进行了评估。Mellum2 与类似规模的开源模型相比具有竞争力,同时推理速度提升超过 2 倍,使其适用于高吞吐量的生产工作负载。模型架构 Mellum2 是一个混合专家模型:

模型 总参数 每个 token 的激活参数 模态 许可证
Mellum2 12B 2.5B 文本和代码 Apache 2.0

MoE 架构保持了较高的总模型容量,同时每个 token 仅激活一部分参数。这使得推理更加高效,并有助于降低实时工作负载的服务成本。Mellum2 特意专注于文本和代码,而非多模态任务。这种专精使得模型在软件工程工作负载上保持紧凑和高效。

关键用例

路由与编排

Mellum2 在多模型系统中作为轻量级路由和编排模型表现出色,包括 prompt 分类、工具选择以及中间控制流步骤。

RAG 流水线

该模型非常适合对延迟敏感的检索流水线,包括上下文压缩、摘要和检索后处理。

子 agent

Mellum2 可用于 agent 子任务,例如规划、验证、转换和上下文准备,从而减少在中间操作中调用更大模型的需求。

私有部署

由于 Mellum2 是开放的且服务效率高,它可以部署在涉及专有代码或内部数据的自托管环境中。

为什么范围明确的模型很重要

随着 AI 系统的成熟,最有效的架构正变得越来越不单一。一个前沿模型可能很强大,但生产系统通常需要多个专门组件协同工作:检索器、路由器、代码感知模型、验证器、工具调用者和更大的推理模型。我们将 Mellum2 视为一个“焦点”模型:一个快速、范围明确的模型,针对大型 AI 系统中的高频任务进行了优化。目标不是取代堆栈中的每一个模型,而是让堆栈更快、更便宜、更易于控制。

开始使用 Mellum2

如果你正在为软件工程构建 AI 系统——无论是在 IDE 中、RAG 流水线中、作为 agent 工作流的一部分,还是在私有基础设施上——Mellum2 已经可以尝试

译自 Hugging Face · 官方博客 · 录于 二〇二六年六月一日