OpenBMB · HF

MiniCPM-o-4_5-GPTQ

MiniCPM-o-4_5-GPTQ

二〇二六年六月六日 · 英文原文

OpenBMB 发布了 MiniCPM-o 4.5 的 GPTQ (W4A16) 量化版本,该模型基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B 构建,总参数量为 9B。该模型在 OpenCompass 上取得 77.6 平均分,视觉-语言能力超越 GPT-4o 并接近 Gemini 2.5 Flash,支持 instruct 和 thinking 双模式。模型具备中英双语实时语音对话、语音克隆与角色扮演功能,并引入全双工多模态实时流式能力,可同时处理视频与音频输入并生成文本与语音输出。在 OmniDocBench 上,其端到端英文文档解析性能超越 Gemini-3 Flash、GPT-5 及 DeepSeek-OCR 2。量化版本将 GPU 内存占用从约 19GB (BF16) 降至约 11GB (INT4)。

此仓库托管了 MiniCPM-o 4.5 的 GPTQ (W4A16, GPTQModel) 量化版本。 原始 BF16 权重及完整模型卡,请参阅 openbmb/MiniCPM-o-4_5

一款达到 Gemini 2.5 Flash 级别的 MLLM,支持视觉、语音及手机上的全双工多模态实时流式交互

GitHub | CookBook | 流式 Demo | 聊天 Demo 微信 | Discord

新闻

[!NOTE] [2026.02.06] 🥳 🥳 🥳 MiniCPM-o 4.5 本地化 & 开箱即用!使用我们新的官方 Docker 镜像,直接在你自己的 Mac 上体验低延迟的全双工通信立即尝试

MiniCPM-o 4.5

MiniCPM-o 4.5 是 MiniCPM-o 系列中最新、能力最强的模型。该模型基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B 以端到端方式构建,总参数量为 9B。它在性能上表现出显著提升,并引入了全双工多模态实时流式传输的新功能。MiniCPM-o 4.5 的显著特点包括:

模型架构。

评估

图像理解 (Instruct)

图像理解 (Thinking)

视频理解

OmniDocBench

文本能力

全模态单工

视觉双工

音频理解

语音生成

长语音生成

情感控制

推理效率

示例

示例: 🎙️ 语音

使用自定义参考音频和角色提示的单工语音对话。

示例: 视觉-语言

使用方式

注意: 此 GPTQ 模型已预量化为 W4A16,将 GPU 内存使用量从约 19GB (BF16) 降低至约 11GB (INT4)。加载时,请使用 torch_dtype=torch.bfloat16device_map="auto"——量化层的权重格式由 GPTQ 内核自动处理。

pip install "transformers==4.51.0" accelerate "torch>=2.3.0,<=2.8.0" "torchaudio<=2.8.0" "minicpmo-utils[all]>=1.0.2" auto-gptq
import torch
from transformers import AutoModel

model = AutoModel.from_pretrained(
    "openbmb/MiniCPM-o-4_5-gptq",
    trust_remote_code=True,
    attn_implementation="sdpa",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    init_vision=True,
    init_audio=True,
    init_tts=True,
)
model.eval()

对于全模态推理(视觉 + 音频),请确保设置 init_vision=Trueinit_audio=Trueinit_tts=True。对于仅视觉推理,请设置 init_audio=Falseinit_tts=False

有关详细用法(聊天、流式、全双工、TTS、视觉理解等),请参阅基础模型 READMECookbook

许可证

模型许可证

声明

关键技术及其他多模态项目

👏 欢迎探索 MiniCPM-o/V 的关键技术以及我们团队的其他多模态项目:

VisCPM | RLPR | RLHF-V | LLaVA-UHD | RLAIF-V

引用

如果您觉得我们的模型/代码/论文有帮助,请考虑引用我们的论文 📝 并给我们点星 ⭐️!

@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={arXiv preprint arXiv:2408.01800},
  year={2024}
}
译自 OpenBMB · HF · 录于 二〇二六年六月六日