MiniCPM5-1B

二〇二六年五月三十一日 · 英文原文

摘要

OpenBMB发布MiniCPM5-1B，一个密集1B参数的Transformer模型，专为设备端和资源受限场景设计，在1B级别开源模型中达到SOTA。该模型支持混合推理，可通过`<think>`模板切换思考模式，上下文长度131,072。训练采用UltraData分层数据管理，经过SFT、RL和On-Policy Distillation (OPD)三阶段后训练，RL+OPD使平均分数提升16分，过长响应比例降低29个百分点。模型以Apache-2.0许可证发布，支持vLLM、SGLang、Transformers等主流推理框架。

亮点

我们发布了 MiniCPM5-1B，这是 MiniCPM5 系列的首个模型。它是一个密集 1B 参数的 Transformer（变换器），专为设备端、本地部署和资源受限场景设计，达到了 1B 级别开源模型的 SOTA（最先进水平）。

🏆 1B 级别开源 SOTA：与同尺寸级别的强大开源模型相比，MiniCPM5-1B 在此对比集合中达到了 SOTA。其优势在 agentic 工具使用、代码生成和困难推理中最为明显。

MiniCPM5-1B 按领域的能力对比

🧠 混合推理：内置 <think> 聊天模板，通过 enable_thinking 切换。同一个 checkpoint 既可充当快速助手，也可作为深思熟虑的推理者。

🛠️ 部署/微调资源：MiniCPM GitHub 仓库为主要推理后端和微调框架提供了单页指南和 Agent Skills。

🐱 桌面宠物：由 MiniCPM5-1B 驱动的本地 LLM 桌面宠物。

模型列表

使用此目录选择与你的运行时匹配的模型格式：

MiniCPM5-1B · ModelScope · BF16 最终发布版（经过 RL + OPD 后训练） 👈 你在这里
MiniCPM5-1B-SFT · ModelScope · BF16 仅 SFT checkpoint（RL / OPD 之前）
MiniCPM5-1B-Base · ModelScope · BF16 基础 checkpoint（仅预训练）
MiniCPM5-1B-GGUF · ModelScope · 用于 llama.cpp / Ollama / LM Studio 的 GGUF
MiniCPM5-1B-MLX · ModelScope · 用于 Apple Silicon 的 MLX / 4bit

模型信息

MiniCPM5-1B 具有以下特点：

类型：因果语言模型
架构：标准 LlamaForCausalLM
参数数量：1,080,632,832
非嵌入参数数量：679,552,512
层数：24
注意力头数 (GQA)：Q 为 16，KV 为 2
上下文长度：131,072

介绍

MiniCPM5-1B 是 MiniCPM5 系列的第一个 checkpoint。它专为本地助手、编码 agent、工具使用工作流以及偏好紧凑模型的推理场景而设计。该模型在保持较小部署 footprint 的同时，提供了原生长上下文支持，并通过同一个 checkpoint 提供 Think / No Think 两种聊天模式。

评估结果

我们将 MiniCPM5-1B 与同尺寸级别的强大开源模型进行了比较，包括 LFM2.5-1.2B-Thinking、Qwen3-0.6B/think 和 Qwen3.5-0.8B/think。这些是能力强大的基线模型；在此对比集合中，MiniCPM5-1B 达到了 1B 级别开源 SOTA，其优势在工具使用、代码生成和困难推理中最为明显。这使其成为本地编码 agent、工具助手和推理助手的实用选择。

MiniCPM-5 1B 公开排行榜

训练方案

MiniCPM5-1B 的训练是 UltraData 分层数据管理 的全栈实践，涵盖三个阶段：基础训练、中期训练和后训练。

在基础训练阶段，模型经历稳定训练和衰减训练，以构建核心语言能力和训练稳定性。然后进入中期训练，进一步加强目标能力并适应目标数据分布。训练语料库随模型一起发布，包括 Ultra-FineWeb、Ultra-FineWeb-L3 和 UltraData-Math。

在后训练阶段，我们分三步进行：SFT、RL 和 OPD。我们首先使用 200B tokens 的深度思考 SFT 和 200B tokens 的混合思考 SFT 来建立深度思考、混合思考和通用聊天能力；SFT 数据以 UltraData-SFT-2605 的形式发布。然后，我们为数学、代码、闭卷问答、写作及相关领域训练专门的 RL 教师模型，并使用 On-Policy Distillation (OPD) 将这些教师模型蒸馏回一个发布模型。

MiniCPM5-1B 训练方案

RL + OPD 带来了什么？

RL + OPD 是 MiniCPM5-1B 后训练的关键部分。在数学、代码和指令遵循任务上，RL + OPD 将平均分数提高了 ↑16 分，同时将触及最大 token 预算的响应比例降低了 ↓29 个百分点。下图展示了双阶段 Reasoning RL 流程、分数提升以及过长响应的减少。

RL 结合了用于推理、闭卷问答、写作、指令遵循、长上下文理解和通用对话的互补训练信号。Reasoning RL 基于 DAPO-Math-17k，遵循 JustRL 的极简方案，并进一步添加了双阶段长度调度，以减少过长响应并提高推理准确性。我们还使用 TriviaQA、NQ-Open、LongWriter-Zero-RLData、合成的可验证 RLVR 数据以及成对 RLHF 信号来提高可靠性、指令遵循能力和用户体验。

MiniCPM5-1B RL 双阶段流程

OPD 建立在 Thinking Machines Lab 的 On-Policy Distillation 基础上，并融入了 Rethinking On-Policy Distillation 中的实现改进。在 RL 框架中，我们使用反向 KL 散度作为优势估计，取代了原始的基于验证的优势。在每个响应位置，我们从学生模型和教师模型中获取 top-k logits，计算两个 token 集并集上的反向 KL，并平衡 RKL 信号的准确性与训练效率。OPD 重用用于训练每个 RL 教师模型的领域内 prompt 作为蒸馏数据，因此无需额外的数据整理。

MiniCPM5-1B RL + OPD 增益

MiniCPM5-1B RL + OPD 过长响应率下降

快速开始

vLLM

pip install "vllm>=0.21"
vllm serve openbmb/MiniCPM5-1B --port 8000

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openbmb/MiniCPM5-1B",
    "messages": [{"role": "user", "content": "你是谁？请简要介绍一下自己。"}],
    "max_tokens": 128,
    "temperature": 0.7
  }'

SGLang

pip install "sglang[srt]>=0.5.12"
python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000

curl http://localhost:30000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openbmb/MiniCPM5-1B",
    "messages": [{"role": "user", "content": "你是谁？请简要介绍一下自己。"}],
    "max_tokens": 128,
    "temperature": 0.7
  }'

Transformers

pip install -U "transformers>=5.6" accelerate torch

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "openbmb/MiniCPM5-1B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [{"role": "user", "content": "你是谁？请简要介绍一下自己。"}]
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    enable_thinking=False,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))

推荐的聊天模板采样参数：

模式	推荐参数	启用方式
Think	`temperature=0.9, top_p=0.95`	`enable_thinking=True`
No Think	`temperature=0.7, top_p=0.95`	`enable_thinking=False`

工具调用

对于工具/函数调用，推荐使用 SGLang 作为后端。MiniCPM5-1B 输出 XML 风格的工具调用，SGLang 内置的 minicpm5 解析器会将其原生转换为 OpenAI 兼容的 tool_calls：

python -m sglang.launch_server --model-path openbmb/MiniCPM5-1B --port 30000 \
    --tool-call-parser minicpm5      # 或：--tool-call-parser auto

GitHub 指南和 Agent Skills

MiniCPM5-1B 使用标准的 LlamaForCausalLM 架构，因此主流推理引擎可以直接加载：无需自定义内核，无需 fork 模型代码。有关分步部署和微调说明，请使用下面的 GitHub 指南。Agent Skills 作为 GitHub 资源链接，供使用 Cursor / Claude Code 风格编码 agent 的用户使用。

部署

后端	模型格式/用例	指南	Agent Skill
Transformers	BF16 / FP16 本地 Python 推理，GPU + CPU	transformers.md	minicpm5-deploy-transformers
vLLM	BF16 / FP16 OpenAI 服务器	vllm.md	minicpm5-deploy-vllm
SGLang	BF16 / FP16 OpenAI 服务器，推荐用于工具调用	sglang.md	minicpm5-deploy-sglang
llama.cpp	GGUF 本地推理，CPU/GPU	llama_cpp.md	minicpm5-deploy-llama-cpp
Ollama	GGUF 本地设备端运行时	ollama.md	minicpm5-deploy-ollama
LM Studio	GGUF Mac 桌面应用和 OpenAI 服务器	lmstudio.md	minicpm5-deploy-lmstudio
MLX	Apple Silicon 上的 MLX / 4bit 本地推理	mlx.md	minicpm5-deploy-mlx
ArcLight	GGUF 本地设备端，CPU，桌面和服务器	arclight.md	minicpm5-deploy-arclight

微调

框架	用例	指南	Agent Skill
TRL + PEFT	LoRA / SFT 微调	trl.md	minicpm5-finetune-trl
LLaMA-Factory	微调	llamafactory.md	minicpm5-finetune-llamafactory
ms-swift	微调	ms_swift.md	minicpm5-finetune-ms-swift
unsloth	微调	unsloth.md	minicpm5-finetune-unsloth
xtuner	微调	xtuner.md	minicpm5-finetune-xtuner

其他支持的框架

除了上面列出的部署和微调框架外，MiniCPM5-1B 还得到 FlagOS 的支持，用于多芯片部署。

FlagOS 概述

为了实现跨不同 AI 芯片的大规模部署，北京智源研究院联合国内外众多研究机构、芯片厂商、系统厂商以及算法和软件机构，共同发起并建立了 FlagOS 开源社区。

FlagOS 社区致力于为各种 AI 芯片构建统一的、开源的系统软件栈，涵盖大规模算子库、统一 AI 编译器、并行训练和推理框架以及统一通信库等核心开源项目。旨在打造一个连接“模型-系统-芯片”层的开放技术生态。通过实现“一次开发，多芯片部署”，FlagOS 释放硬件的计算潜力，打破不同芯片软件栈之间的生态壁垒，并有效降低开发者的迁移成本。FlagOS 社区培育 AI 软硬件生态，打破单一厂商的闭源垄断，促进 AI 硬件技术的广泛部署，并致力于立足中国，拥抱全球合作。

官方网站： https://flagos.io

FlagOS：支持多种 AI 芯片

得益于 FlagOS 的统一多芯片 AI 系统软件栈，MiniCPM5-1B 在极短的时间内适配了 4-5 种不同的 AI 芯片。目前，MiniCPM5-1B 的多芯片版本已在 FlagOS 的自动迁移、适配和跨多架构 AI 芯片大模型部署平台 FlagRelease 上发布。详情如下：

厂商	ModelScope	Huggingface
Nvidia	MiniCPM5-1B-nvidia-FlagOS	MiniCPM5-1B-nvidia-FlagOS
Hygon	MiniCPM5-1B-hygon-FlagOS	MiniCPM5-1B-hygon-FlagOS
Metax	MiniCPM5-1B-metax-FlagOS	MiniCPM5-1B-metax-FlagOS
Iluvatar	MiniCPM5-1B-iluvatar-FlagOS	MiniCPM5-1B-iluvatar-FlagOS
Zhenwu	MiniCPM5-1B-zhenwu-FlagOS	MiniCPM5-1B-zhenwu-FlagOS
Mthreads	MiniCPM5-1B-mthreads-FlagOS	MiniCPM5-1B-mthreads-FlagOS
Kunlunxin	MiniCPM5-1B-kunlunxin-FlagOS	MiniCPM5-1B-kunlunxin-FlagOS
Ascend	MiniCPM5-1B-ascend-FlagOS	MiniCPM5-1B-ascend-FlagOS
ARM-v9	MiniCPM5-1B-Armv9-FlagOS	MiniCPM5-1B-Armv9-FlagOS

FlagOS 使用

Nvidia 上的 FlagOS 性能加速

从 FlagRelease 开始（推荐）

FlagRelease 是 FlagOS 团队开发的用于跨多架构 AI 芯片自动迁移、适配和部署大模型的平台。MiniCPM5-1B 的多芯片版本已在 FlagRelease 上发布。所有必要的软件包都已预装在平台上，用户无需安装任何东西。

FlagRelease 镜像关键版本

FlagRelease 快速开始

厂商	ModelScope	Huggingface
Nvidia	MiniCPM5-1B-nvidia-FlagOS	MiniCPM5-1B-nvidia-FlagOS
Hygon	MiniCPM5-1B-hygon-FlagOS	MiniCPM5-1B-hygon-FlagOS
Metax	MiniCPM5-1B-metax-FlagOS	MiniCPM5-1B-metax-FlagOS
Iluvatar	MiniCPM5-1B-iluvatar-FlagOS	MiniCPM5-1B-iluvatar-FlagOS
Zhenwu	MiniCPM5-1B-zhenwu-FlagOS	MiniCPM5-1B-zhenwu-FlagOS
Mthreads	MiniCPM5-1B-mthreads-FlagOS	MiniCPM5-1B-mthreads-FlagOS
Kunlunxin	MiniCPM5-1B-kunlunxin-FlagOS	MiniCPM5-1B-kunlunxin-FlagOS
Ascend	MiniCPM5-1B-ascend-FlagOS	MiniCPM5-1B-ascend-FlagOS
ARM-v9	MiniCPM5-1B-Armv9-FlagOS	MiniCPM5-1B-Armv9-FlagOS

从零开始

依赖：Python 3.12, GLIBC 2.39, GLIBCXX 3.4.33, CXXABI 1.3.15

Vllm 版本

安装 FlagOS 算子库

官方仓库： https://github.com/flagos-ai/FlagGems

pip install flag-gems==4.2.1rc0
pip install triton==3.5.1

启用加速

你可以通过在执行推理的 vllm 源代码中添加 flagGems 的导入来启用 flagGems 加速。

import flag_gems
flag_gems.enable(record=True, once=True, path="/root/gems.txt")

vllm serve ${model_path} \
--trust-remote-code \
--dtype bfloat16 \
--enforce-eager \
--port ${Port} \
--served-model-name ${model_name} \
--gpu-memory-utilization 0.85

使用 FlagOS 统一多芯片后端插件

vllm-plugin-FL 是一个为 vLLM 推理/服务框架构建的插件。它基于 FlagOS 的统一多芯片后端开发，旨在扩展 vLLM 在各种硬件环境中的能力和性能。

使用 vllm-plugin-FL

厂商	从零开始	从 FlagRelease 开始
Nvidia	vllm-plugin-FL/MiniCPM5-1B	MiniCPM5-1B-ModelScope	MiniCPM5-1B-nvidia-FlagOS

桌面宠物

我们还提供了 OpenBMB/MiniCPM-Desk-Pet，一个由 MiniCPM5-1B 本地驱动的桌面宠物。它支持 Apple Silicon / NVIDIA GPU / CPU 路径，可以与 Cursor、Claude Code 和 Codex 等编码 agent 协同工作，并支持 LoRA 角色切换。

局限性与负责任使用

MiniCPM5-1B 是一个语言模型，它根据从训练数据中学到的统计模式生成内容。它可能会产生不准确、有偏见或不安全的输出，在高风险场景中使用前应对生成的内容进行审查和验证。

用户有责任评估输出、应用适当的保护措施，并遵守适用的法律、法规和平台政策。

许可证

本仓库和 MiniCPM 模型权重根据 Apache-2.0 许可证发布。

引用

如果你认为我们的工作有价值，请引用我们的论文：

@article{minicpm4,
  title={Minicpm4: Ultra-efficient llms on end devices},
  author={MiniCPM, Team},
  journal={arXiv preprint arXiv:2506.07900},
  year={2025}
}

译自 OpenBMB · HF · 录于二〇二六年五月三十一日