MiniCPM5-1B
MiniCPM5-1B
OpenBMB发布MiniCPM5-1B,一个密集1B参数的Transformer模型,专为设备端和资源受限场景设计,在1B级别开源模型中达到SOTA。该模型支持混合推理,可通过`<think>`模板切换思考模式,上下文长度131,072。训练采用UltraData分层数据管理,经过SFT、RL和On-Policy Distillation (OPD)三阶段后训练,RL+OPD使平均分数提升16分,过长响应比例降低29个百分点。模型以Apache-2.0许可证发布,支持vLLM、SGLang、Transformers等主流推理框架。
亮点
我们发布了 MiniCPM5-1B,这是 MiniCPM5 系列的首个模型。它是一个密集 1B 参数的 Transformer(变换器),专为设备端、本地部署和资源受限场景设计,达到了 1B 级别开源模型的 SOTA(最先进水平)。
🏆 1B 级别开源 SOTA:与同尺寸级别的强大开源模型相比,MiniCPM5-1B 在此对比集合中达到了 SOTA。其优势在 agentic 工具使用、代码生成和困难推理中最为明显。

🧠 混合推理:内置 <think> 聊天模板,通过 enable_thinking 切换。同一个 checkpoint 既可充当快速助手,也可作为深思熟虑的推理者。
🛠️ 部署/微调资源:MiniCPM GitHub 仓库为主要推理后端和微调框架提供了单页指南和 Agent Skills。
🐱 桌面宠物:由 MiniCPM5-1B 驱动的本地 LLM 桌面宠物。
模型列表
使用此目录选择与你的运行时匹配的模型格式:
- MiniCPM5-1B · ModelScope · BF16 最终发布版(经过 RL + OPD 后训练) 👈 你在这里
- MiniCPM5-1B-SFT · ModelScope · BF16 仅 SFT checkpoint(RL / OPD 之前)
- MiniCPM5-1B-Base · ModelScope · BF16 基础 checkpoint(仅预训练)
- MiniCPM5-1B-GGUF · ModelScope · 用于 llama.cpp / Ollama / LM Studio 的 GGUF
- MiniCPM5-1B-MLX · ModelScope · 用于 Apple Silicon 的 MLX / 4bit
模型信息
MiniCPM5-1B 具有以下特点:
- 类型:因果语言模型
- 架构:标准
LlamaForCausalLM - 参数数量:1,080,632,832
- 非嵌入参数数量:679,552,512
- 层数:24
- 注意力头数 (GQA):Q 为 16,KV 为 2
- 上下文长度:131,072
介绍
MiniCPM5-1B 是 MiniCPM5 系列的第一个 checkpoint。它专为本地助手、编码 agent、工具使用工作流以及偏好紧凑模型的推理场景而设计。该模型在保持较小部署 footprint 的同时,提供了原生长上下文支持,并通过同一个 checkpoint 提供 Think / No Think 两种聊天模式。
评估结果
我们将 MiniCPM5-1B 与同尺寸级别的强大开源模型进行了比较,包括 LFM2.5-1.2B-Thinking、Qwen3-0.6B/think 和 Qwen3.5-0.8B/think。这些是能力强大的基线模型;在此对比集合中,MiniCPM5-1B 达到了 1B 级别开源 SOTA,其优势在工具使用、代码生成和困难推理中最为明显。这使其成为本地编码 agent、工具助手和推理助手的实用选择。

训练方案
MiniCPM5-1B 的训练是 UltraData 分层数据管理 的全栈实践,涵盖三个阶段:基础训练、中期训练和后训练。
在基础训练阶段,模型经历稳定训练和衰减训练,以构建核心语言能力和训练稳定性。然后进入中期训练,进一步加强目标能力并适应目标数据分布。训练语料库随模型一起发布,包括 Ultra-FineWeb、Ultra-FineWeb-L3 和 UltraData-Math。
在后训练阶段,我们分三步进行:SFT、RL 和 OPD。我们首先使用 200B tokens 的深度思考 SFT 和 200B tokens 的混合思考 SFT 来建立深度思考、混合思考和通用聊天能力;SFT 数据以 UltraData-SFT-2605 的形式发布。然后,我们为数学、代码、闭卷问答、写作及相关领域训练专门的 RL 教师模型,并使用 On-Policy Distillation (OPD) 将这些教师模型蒸馏回一个发布模型。

RL + OPD 带来了什么?
RL + OPD 是 MiniCPM5-1B 后训练的关键部分。在数学、代码和指令遵循任务上,RL + OPD 将平均分数提高了 ↑16 分,同时将触及最大 token 预算的响应比例降低了 ↓29 个百分点。下图展示了双阶段 Reasoning RL 流程、分数提升以及过长响应的减少。
RL 结合了用于推理、闭卷问答、写作、指令遵循、长上下文理解和通用对话的互补训练信号。Reasoning RL 基于 DAPO-Math-17k,遵循 JustRL 的极简方案,并进一步添加了双阶段长度调度,以减少过长响应并提高推理准确性。我们还使用 TriviaQA、NQ-Open、LongWriter-Zero-RLData、合成的可验证 RLVR 数据以及成对 RLHF 信号来提高可靠性、指令遵循能力和用户体验。

OPD 建立在 Thinking Machines Lab 的 On-Policy Distillation 基础上,并融入了 Rethinking On-Policy Distillation 中的实现改进。在 RL 框架中,我们使用反向 KL 散度作为优势估计,取代了原始的基于验证的优势。在每个响应位置,我们从学生模型和教师模型中获取 top-k logits,计算两个 token 集并集上的反向 KL,并平衡 RKL 信号的准确性与训练效率。OPD 重用用于训练每个 RL 教师模型的领域内 prompt 作为蒸馏数据,因此无需额外的数据整理。


快速开始
vLLM
pip install "vllm>=0.21"
vllm serve openbmb/MiniCPM5-1B --port 8000
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "openbmb/MiniCPM5-1B",
"messages": [{"role": "user", "content": "你是谁?请简要介绍一下自己。"}],
"max_tokens": 128,
"temperature": 0.7
}'
SGLang
pip install "sglang[srt]>=0.5.12"
python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000
curl http://localhost:30000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "openbmb/MiniCPM5-1B",
"messages": [{"role": "user", "content": "你是谁?请简要介绍一下自己。"}],
"max_tokens": 128,
"temperature": 0.7
}'
Transformers
pip install -U "transformers>=5.6" accelerate torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "openbmb/MiniCPM5-1B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype="auto",
device_map="auto",
)
messages = [{"role": "user", "content": "你是谁?请简要介绍一下自己。"}]
inputs = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
enable_thinking=False,
return_tensors="pt",
).to(model.device)
outputs = model.generate(inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))
推荐的聊天模板采样参数:
| 模式 | 推荐参数 | 启用方式 |
|---|---|---|
| Think | temperature=0.9, top_p=0.95 |
enable_thinking=True |
| No Think | temperature=0.7, top_p=0.95 |
enable_thinking=False |
工具调用
对于工具/函数调用,推荐使用 SGLang 作为后端。MiniCPM5-1B 输出 XML 风格的工具调用,SGLang 内置的 minicpm5 解析器会将其原生转换为 OpenAI 兼容的 tool_calls:
python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000 \
--tool-call-parser minicpm5 # 或:--tool-call-parser auto
GitHub 指南和 Agent Skills
MiniCPM5-1B 使用标准的 LlamaForCausalLM 架构,因此主流推理引擎可以直接加载:无需自定义内核,无需 fork 模型代码。有关分步部署和微调说明,请使用下面的 GitHub 指南。Agent Skills 作为 GitHub 资源链接,供使用 Cursor / Claude Code 风格编码 agent 的用户使用。
部署
| 后端 | 模型格式/用例 | 指南 | Agent Skill |
|---|---|---|---|
| Transformers | BF16 / FP16 本地 Python 推理,GPU + CPU | transformers.md | minicpm5-deploy-transformers |
| vLLM | BF16 / FP16 OpenAI 服务器 | vllm.md | minicpm5-deploy-vllm |
| SGLang | BF16 / FP16 OpenAI 服务器,推荐用于工具调用 | sglang.md | minicpm5-deploy-sglang |
| llama.cpp | GGUF 本地推理,CPU/GPU | llama_cpp.md | minicpm5-deploy-llama-cpp |
| Ollama | GGUF 本地设备端运行时 | ollama.md | minicpm5-deploy-ollama |
| LM Studio | GGUF Mac 桌面应用和 OpenAI 服务器 | lmstudio.md | minicpm5-deploy-lmstudio |
| MLX | Apple Silicon 上的 MLX / 4bit 本地推理 | mlx.md | minicpm5-deploy-mlx |
| ArcLight | GGUF 本地设备端,CPU,桌面和服务器 | arclight.md | minicpm5-deploy-arclight |
微调
| 框架 | 用例 | 指南 | Agent Skill |
|---|---|---|---|
| TRL + PEFT | LoRA / SFT 微调 | trl.md | minicpm5-finetune-trl |
| LLaMA-Factory | 微调 | llamafactory.md | minicpm5-finetune-llamafactory |
| ms-swift | 微调 | ms_swift.md | minicpm5-finetune-ms-swift |
| unsloth | 微调 | unsloth.md | minicpm5-finetune-unsloth |
| xtuner | 微调 | xtuner.md | minicpm5-finetune-xtuner |
其他支持的框架
除了上面列出的部署和微调框架外,MiniCPM5-1B 还得到 FlagOS 的支持,用于多芯片部署。
FlagOS 概述
为了实现跨不同 AI 芯片的大规模部署,北京智源研究院联合国内外众多研究机构、芯片厂商、系统厂商以及算法和软件机构,共同发起并建立了 FlagOS 开源社区。
FlagOS 社区致力于为各种 AI 芯片构建统一的、开源的系统软件栈,涵盖大规模算子库、统一 AI 编译器、并行训练和推理框架以及统一通信库等核心开源项目。旨在打造一个连接“模型-系统-芯片”层的开放技术生态。通过实现“一次开发,多芯片部署”,FlagOS 释放硬件的计算潜力,打破不同芯片软件栈之间的生态壁垒,并有效降低开发者的迁移成本。FlagOS 社区培育 AI 软硬件生态,打破单一厂商的闭源垄断,促进 AI 硬件技术的广泛部署,并致力于立足中国,拥抱全球合作。
官方网站: https://flagos.io
FlagOS:支持多种 AI 芯片
得益于 FlagOS 的统一多芯片 AI 系统软件栈,MiniCPM5-1B 在极短的时间内适配了 4-5 种不同的 AI 芯片。目前,MiniCPM5-1B 的多芯片版本已在 FlagOS 的自动迁移、适配和跨多架构 AI 芯片大模型部署平台 FlagRelease 上发布。详情如下:
FlagOS 使用
Nvidia 上的 FlagOS 性能加速
从 FlagRelease 开始(推荐)
FlagRelease 是 FlagOS 团队开发的用于跨多架构 AI 芯片自动迁移、适配和部署大模型的平台。MiniCPM5-1B 的多芯片版本已在 FlagRelease 上发布。所有必要的软件包都已预装在平台上,用户无需安装任何东西。
FlagRelease 镜像关键版本
FlagRelease 快速开始
从零开始
- 依赖:Python 3.12, GLIBC 2.39, GLIBCXX 3.4.33, CXXABI 1.3.15
Vllm 版本
安装 FlagOS 算子库
官方仓库: https://github.com/flagos-ai/FlagGems
pip install flag-gems==4.2.1rc0
pip install triton==3.5.1
启用加速
你可以通过在执行推理的 vllm 源代码中添加 flagGems 的导入来启用 flagGems 加速。
import flag_gems
flag_gems.enable(record=True, once=True, path="/root/gems.txt")
vllm serve ${model_path} \
--trust-remote-code \
--dtype bfloat16 \
--enforce-eager \
--port ${Port} \
--served-model-name ${model_name} \
--gpu-memory-utilization 0.85
使用 FlagOS 统一多芯片后端插件
vllm-plugin-FL 是一个为 vLLM 推理/服务框架构建的插件。它基于 FlagOS 的统一多芯片后端开发,旨在扩展 vLLM 在各种硬件环境中的能力和性能。
使用 vllm-plugin-FL
| 厂商 | 从零开始 | 从 FlagRelease 开始 | |
|---|---|---|---|
| Nvidia | vllm-plugin-FL/MiniCPM5-1B | MiniCPM5-1B-ModelScope | MiniCPM5-1B-nvidia-FlagOS |
桌面宠物
我们还提供了 OpenBMB/MiniCPM-Desk-Pet,一个由 MiniCPM5-1B 本地驱动的桌面宠物。它支持 Apple Silicon / NVIDIA GPU / CPU 路径,可以与 Cursor、Claude Code 和 Codex 等编码 agent 协同工作,并支持 LoRA 角色切换。
局限性与负责任使用
MiniCPM5-1B 是一个语言模型,它根据从训练数据中学到的统计模式生成内容。它可能会产生不准确、有偏见或不安全的输出,在高风险场景中使用前应对生成的内容进行审查和验证。
用户有责任评估输出、应用适当的保护措施,并遵守适用的法律、法规和平台政策。
许可证
本仓库和 MiniCPM 模型权重根据 Apache-2.0 许可证发布。
引用
如果你认为我们的工作有价值,请引用我们的论文:
@article{minicpm4,
title={Minicpm4: Ultra-efficient llms on end devices},
author={MiniCPM, Team},
journal={arXiv preprint arXiv:2506.07900},
year={2025}
}