MiniCPM-o-4_5-GPTQ

二〇二六年六月六日 · 英文原文

摘要

OpenBMB 发布了 MiniCPM-o 4.5 的 GPTQ (W4A16) 量化版本，该模型基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B 构建，总参数量为 9B。该模型在 OpenCompass 上取得 77.6 平均分，视觉-语言能力超越 GPT-4o 并接近 Gemini 2.5 Flash，支持 instruct 和 thinking 双模式。模型具备中英双语实时语音对话、语音克隆与角色扮演功能，并引入全双工多模态实时流式能力，可同时处理视频与音频输入并生成文本与语音输出。在 OmniDocBench 上，其端到端英文文档解析性能超越 Gemini-3 Flash、GPT-5 及 DeepSeek-OCR 2。量化版本将 GPU 内存占用从约 19GB (BF16) 降至约 11GB (INT4)。

此仓库托管了 MiniCPM-o 4.5 的 GPTQ (W4A16, GPTQModel) 量化版本。 原始 BF16 权重及完整模型卡，请参阅 openbmb/MiniCPM-o-4_5。

一款达到 Gemini 2.5 Flash 级别的 MLLM，支持视觉、语音及手机上的全双工多模态实时流式交互

GitHub | CookBook | 流式 Demo | 聊天 Demo 微信 | Discord

新闻

[!NOTE] [2026.02.06] 🥳 🥳 🥳 MiniCPM-o 4.5 本地化 & 开箱即用！使用我们新的官方 Docker 镜像，直接在你自己的 Mac 上体验低延迟的全双工通信。立即尝试！

MiniCPM-o 4.5

MiniCPM-o 4.5 是 MiniCPM-o 系列中最新、能力最强的模型。该模型基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B 以端到端方式构建，总参数量为 9B。它在性能上表现出显著提升，并引入了全双工多模态实时流式传输的新功能。MiniCPM-o 4.5 的显著特点包括：

🔥 领先的视觉能力。 MiniCPM-o 4.5 在 OpenCompass（一项涵盖 8 个流行 benchmark 的综合评估）上取得了 77.6 的平均分。仅凭 9B 参数，它在视觉-语言能力上超越了广泛使用的专有模型，如 GPT-4o、Gemini 2.0 Pro，并接近 Gemini 2.5 Flash。它支持在单个模型中使用 instruct 和 thinking 模式，能更好地覆盖不同用户场景下效率与性能的权衡。
🎙 强大的语音能力。 MiniCPM-o 4.5 支持中英双语实时语音对话，且语音可配置。它具有更自然、更具表现力且更稳定的语音对话能力。该模型还支持通过简单的参考音频片段进行语音克隆和角色扮演等有趣功能，其克隆性能超越了 CosyVoice2 等强大的 TTS 工具。
🎬 全新的全双工与主动式多模态实时流式能力。 作为一项新特性，MiniCPM-o 4.5 能够以端到端方式同时处理实时的连续视频和音频输入流，并同时生成并发的文本和语音输出流，互不阻塞。这使得 MiniCPM-o 4.5 能够同时看、听和说，创造出流畅、实时的全模态对话体验。除了被动响应，该模型还能基于对实时场景的持续理解进行主动交互，例如主动发起提醒或评论。
💪 强大的 OCR 能力、效率及其他。 在 MiniCPM-V 系列广受欢迎的视觉能力基础上，MiniCPM-o 4.5 能够高效处理高分辨率图像（最高 180 万像素）和任意宽高比的高 FPS 视频（最高 10fps）。它在 OmniDocBench 上实现了端到端英文文档解析的 SOTA 性能，超越了 Gemini-3 Flash 和 GPT-5 等专有模型，以及 DeepSeek-OCR 2 等专用工具。它还具备可信赖的行为，在 MMHal-Bench 上与 Gemini 2.5 Flash 持平，并支持超过 30 种语言的多语言能力。
💫 易于使用。 MiniCPM-o 4.5 可通过多种方式轻松使用：(1) 支持 llama.cpp 和 Ollama 在本地设备上进行高效的 CPU 推理，(2) 提供 16 种大小的 int4 和 GGUF 格式量化模型，(3) 支持 vLLM 和 SGLang 实现高吞吐量和内存高效的推理，(4) 支持 FlagOS 统一多芯片后端插件，(5) 可使用 LLaMA-Factory 在新领域和任务上进行微调，以及 (6) 在服务器上提供在线 web demo。我们还推出了高性能的 llama.cpp-omni 推理框架以及 WebRTC Demo，使得在 PC（例如 MacBook）等本地设备上实现全双工多模态实时流式体验成为可能。

模型架构。

评估

图像理解 (Instruct)

图像理解 (Thinking)

视频理解

OmniDocBench

文本能力

全模态单工

视觉双工

音频理解

语音生成

长语音生成

情感控制

推理效率

示例

示例: 🎙️ 语音

使用自定义参考音频和角色提示的单工语音对话。

示例: 视觉-语言

使用方式

注意： 此 GPTQ 模型已预量化为 W4A16，将 GPU 内存使用量从约 19GB (BF16) 降低至约 11GB (INT4)。加载时，请使用 torch_dtype=torch.bfloat16 和 device_map="auto"——量化层的权重格式由 GPTQ 内核自动处理。

pip install "transformers==4.51.0" accelerate "torch>=2.3.0,<=2.8.0" "torchaudio<=2.8.0" "minicpmo-utils[all]>=1.0.2" auto-gptq

import torch
from transformers import AutoModel

model = AutoModel.from_pretrained(
    "openbmb/MiniCPM-o-4_5-gptq",
    trust_remote_code=True,
    attn_implementation="sdpa",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    init_vision=True,
    init_audio=True,
    init_tts=True,
)
model.eval()

对于全模态推理（视觉 + 音频），请确保设置 init_vision=True、init_audio=True、init_tts=True。对于仅视觉推理，请设置 init_audio=False 和 init_tts=False。

有关详细用法（聊天、流式、全双工、TTS、视觉理解等），请参阅基础模型 README 和 Cookbook。

许可证

模型许可证

MiniCPM-o/V 模型的权重和代码根据 Apache-2.0 许可证开源。

声明

作为 LMM，MiniCPM-o 4.5 通过学习大量多模态语料库生成内容，但它无法理解、表达个人观点或做出价值判断。MiniCPM-o 4.5 生成的任何内容均不代表模型开发者的观点和立场。
对于因使用 MiniCPM-o 模型而产生的任何问题，包括但不限于数据安全问题、舆论风险，或因模型的错误引导、滥用、传播或误用而产生的任何风险和问题，我们概不负责。

关键技术及其他多模态项目

👏 欢迎探索 MiniCPM-o/V 的关键技术以及我们团队的其他多模态项目：

VisCPM | RLPR | RLHF-V | LLaVA-UHD | RLAIF-V

引用

如果您觉得我们的模型/代码/论文有帮助，请考虑引用我们的论文 📝 并给我们点星 ⭐️！

@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={arXiv preprint arXiv:2408.01800},
  year={2024}
}

译自 OpenBMB · HF · 录于二〇二六年六月六日