Cohere 发布 Command A+

Introducing Command A+ | Cohere

二〇二六年五月二十七日 · 英文原文

摘要

Cohere 开源了 Command A+，一款 218B 总参数量、25B 激活参数量的混合专家（MoE）模型，采用 Apache 2.0 许可证。该模型支持 128K 输入上下文、64K 最大生成长度，覆盖 48 种语言及文本、图像、工具使用模态。在 𝜏²-Bench Telecom 上得分从 37% 提升至 85%，Terminal-Bench Hard 编码性能从 3% 提升至 25%，MMMU Pro 达 63%。提供 W4A4 量化版本，可在 2 块 H100 或 1 块 B200 上运行，TOPS 提升 63%，TTFT 降低 17%。

今天，我们开源了 Command A+。Command A+ 是一款混合专家（MoE）模型，它高效、通用且可私有化部署，专为高性能 agentic 任务而设计，计算开销极低。

这款模型源于我们与客户一起部署 North 的一年经验，它超越了 Command 系列的所有前代产品，并将其能力统一到一个可扩展的单一模型中。

现在，Command A+ 在 Apache 2.0 许可证下免费提供，这推进了 Cohere 使主权 AI 成为技术现实的使命——让开发者能够在实验、部署和生产工作流中直接使用企业级的 agentic 能力。

访问 Hugging Face 下载权重——提供多种近无损量化版本——并阅读我们的实现指南。如需专用、托管的推理环境，请立即在 Model Vault 中部署 Command A+。

概览

| 模型 | command-a-plus-05-2026 | | --- | | 许可证 | Apache 2.0 | | 架构 | 稀疏 / MoE | | 模型大小 | 218B 总参数量；25B 激活参数量 | | 上下文长度 | 128K 输入上下文；64K 最大生成长度 | | 输入模态 | 文本、图像、工具使用 | | 输出模态 | 文本、推理、工具使用 | | 语言 | 支持 48 种语言。完整列表 | | 优化方向 | 推理、agentic 工作流、RAG、多语言、多模态文档处理 | | 支持框架 | vLLM、Transformers | | 硬件（最低） | 1× B200 @ W4A4 2× H100s @ W4A4 |

向北而行

过去一年，North——Cohere 用于构建和部署 agentic AI 的集成企业工作空间——一直是我们大部分创新的驱动力。通过这项工作，我们着手为客户构建一个统一的模型，以简化部署、支持本地运行，并整合 Command 系列的能力。

这项工作已初见成效。请阅读我们的客户如何利用 North 改造其运营。

然而，主权 AI 的意义远不止 Cohere 本身。赋予工程师自行运行、控制和调整模型的能力，是这一代 AI 面临的最严峻挑战。

我们针对实际、以开发者为中心的使用场景优化了 Command A+，包括支持低位量化、高效推理以及与开放推理框架的集成。实现人人可用的 AI 独立性。

我们迫不及待地想看到社区将用它构建什么。

Command，整合一体

Command A+ 在企业工作负载的关键维度上优于之前的 Command A 模型，包括多模态理解、检索、长周期和复杂推理。

	Command A+	Command A	Command A Reasoning	Command A Vision	Command A Translate
大小	218B A25B	111B	111B	112B	111B
推理	✓	—	✓	—	—
多模态	✓	—	—	✓	—
工具使用	✓	✓	✓	—	—
多语言	48	23	23	6	23

图 2：比较 Command A+ 与 Command A 系列其他模型的能力。

与 Command A Reasoning 相比，𝜏²-Bench Telecom 得分从 37% 提升至 85%，Terminal-Bench Hard 上的 agentic 编码性能从 3% 提升至 25%。在非 agentic 推理、指令遵循和其他代码生成任务上也取得了进步。

图 1 图 3：Command A+ 和 Command A Reasoning 在一系列流行开源 benchmark 上的性能。详情见脚注。1

Command A+ 在 North 应用中表现强劲，反映了其最初的设计目标。Agentic 问答准确率和电子表格分析质量分别比 Command A Reasoning 提升了 20% 和 32%。记忆性能——测试 North 在跨对话和存储数据进行推理方面的能力——Command A+ 得分为 54%，而 Command A Reasoning 为 39%。

图 2

图 4：North 上三项内部评估的性能提升。Agentic 问答衡量模型使用 MCP 连接的云文件系统回答企业问题的能力。数据分析衡量模型对上传的电子表格执行数据科学任务的能力。记忆使用质量衡量 agent 利用 North 记忆系统中先前会话的信息来回答后续会话问题的能力。所有评分均使用 LLM-as-a-judge 技术。

在多模态理解和推理方面，Command A+ 在 MMMU Pro 上达到 63%，在 MMMU 上达到 75.1%（后者 Command A Vision 为 65.3%）。MathVista 得分从 73.5% 提升至 80.6%，CharXiv 推理从 46.9% 提升至 52.7%，反映了文档理解任务的广泛进步。

图 3

图 5：Command A+ 和 Command A Vision 的多模态性能比较。Command A+ 是 Cohere 首个多模态推理模型，在 CharXiv 推理等相关任务集上相比 Command A Vision 有显著提升。我们遵循给定 benchmark 的标准方法。

Command A+ 显著扩展了多语言能力，语言覆盖范围从 23 种扩大到 48 种，并在机器翻译和多语言推理方面取得了进步。

图 4 图 6：Command A+ 和 Command A Reasoning 的多语言性能比较。MT-AIME 2025 是 AIME-2025（一个英文数学 benchmark）的内部翻译版本，针对阿拉伯语、日语和韩语进行评估。WMT24++ 是一个广泛使用的公开 benchmark，此处使用 xCOMETxl 进行评估。2

Command A+ 在 Artificial Analysis Intelligence Index 上获得 37 分，优于其他领先的开放模型，反映了其作为企业 agentic 工作流通用模型的实力 [3]。

规模化的效率

效率是企业 AI 部署的核心约束。它通过决定可靠且经济高效地服务模型所需的计算、内存、延迟、功耗和基础设施，来确定语言模型能否在实际规模下部署。

我们设计 Command A+ 时注重极高的硬件效率。该模型目前在 Hugging Face 上提供 16-bit (BF16)、8-bit (FP8) 和 4-bit (W4A4) 量化版本，质量差异几乎不可察觉。实际上，这使得 Command A+ 可以仅在两块 NVIDIA H100 或一块 NVIDIA Blackwell GPU 上运行，且几乎没有质量下降。

Command A+ 也是我们迄今为止最快的模型，总参数量为 218B，激活参数量为 25B，而 Command A Reasoning 的密集架构为 111B。在相同的量化和并发级别下，其每秒输出 Token 数（TOPS）提升高达 63%，首 Token 时间（TTFT）降低高达 17%。W4A4 量化额外贡献了 47% 的速度提升和 13% 的延迟降低。

图 5 图 7：不同并发度和模型量化下 Command A+ 与 Command A Reasoning 的速度和延迟比较。TOPS = 模型生成 Token 时每秒接收的 Token 数（即从 API 收到第一个 chunk 之后）。TTFT = API 请求发送后收到第一个 Token 的时间（秒）。4

我们还使用推测解码来加速文本生成，同时不影响输出质量。我们针对模型的 MoE 架构优化了该方法，为文本和多模态输入额外提供了 1.5-1.6 倍的推理加速。在此处阅读更多关于我们工作的内容。

Command A+ 是首个使用我们最新 tokenizer 的模型，相比前代实现了显著的压缩改进。现在生成相同响应所需的 Token 更少，从而降低了推理成本的主要驱动因素。值得注意的是，这些改进也惠及主要的非欧洲语言，这些语言在 tokenizer 训练中通常代表性不足。阿拉伯语的 tokenization 效率提升了 20%，韩语提升了 16%，日语提升了 18%。

图 6

图 8：Command A+、Command A Reasoning 和 gpt-oss 对不同语言产生的 Token 数量比较（以 Command A+ tokenizer 产生 Token 数量的倍数表示）。

Vivek Mahajan 企业执行官、企业副总裁、首席技术官，负责系统平台富士通有限公司

下一步是什么？

当今主权 AI 的进步取决于同时推进三个方向：性能、安全性和成本。在 Cohere，我们正在这三个方面进行投资——既在我们的模型中，也在驱动 North 的特定领域能力中。

这意味着改进推理、多模态理解和编码性能，同时确保模型完全适合在客户环境中运行。目标不仅仅是更强的 benchmark，而是能够在实际运营约束下支持企业级转型的系统。

我们已经将这种方法应用于其他模型系列——包括 Embed、Rerank 和 Transcribe——在这些领域，我们在实现高效、成本感知推理的同时，取得了最先进的性能。

开始使用

Command A+ 现已可在 Hugging Face 以及通过 Model Vault 获取。您也可以在我们的 Space 或使用 Cohere API 密钥免费试用该模型。

请访问我们的文档获取详细的模型规格、部署指南和入门 cookbook。

脚注

1 𝜏²-Bench Telecom 使用标准设置和来自 [Barres et al. 2025] 的用户模拟进行评估。Terminal-Bench Hard 使用 Terminus-2 harness 按照 Artificial Analysis 的方法进行评估。AIME 2025 在官方 2025 年 30 道题集上评估，每道题重复 10 次。得分是该 300 样本数据集上的 pass@1。IFBench 为单轮、宽松评估模式，报告的得分对应 1470 个样本（294 个独特提示重复五次）的提示准确率。Scicode 使用 65 个测试问题（包含 288 个子问题）进行评估。我们按照 Artificial Analysis 的方法，使用 'scientist-annotated background' 提示每个子问题。

2 MT-AIME 使用 Command A Translate 从英文翻译而来。WMT24++ 得分是 50 个变体的平均值：所有支持的语言，包括原始 WMT24++ 测试集中的 ar_EG、ar_SA、pt_BR、pt_PT、zh_CN、zh_TW。塞尔维亚语使用内部音译至西里尔字母进行评估。爱尔兰语和马耳他语是 WMT24++ 的内部创建翻译。

3 为了高效大规模训练 Command A+ 模型，我们利用 NVIDIA 的 CUDA-X 生态系统（CUTLASS、cuBLAS、TE 和 NCCL）进行高性能计算、内核优化和多 GPU 通信。

4 所有模型均在单个 NVIDIA HGX B200 节点（8 块 GPU）上测量，使用 vLLM 和张量并行（TP=8），针对 LiveCodeBench。提示词约 3K Token，最大输出长度为 8K。

译自 Cohere · 官方 · 录于二〇二六年五月二十七日