Artificial Analysis · 评测

Kimi K2.6：新的领先开源权重模型

Kimi K2.6: The new leading open weights model

二〇二六年五月十二日 · 英文原文

摘要

Moonshot 发布 Kimi K2.6，为开源权重混合专家（MoE）模型，总参数量 1T，激活参数 32B。该模型在 Artificial Analysis 智能指数中排名第4（54分），在 GDPval-AA agent 评估中 Elo 分数达 1520，较 K2.5 提升 211 分。AA-Omniscience Index 得分为 6，幻觉率 39%。支持图像和视频输入，最大上下文 256k，可通过 Moonshot 及 Novita、Baseten、Fireworks、Parasail 等第三方 API 访问。

Kimi K2.6：领先的新开源权重模型

模型
编码 Agent
语音、图像、视频
硬件
排行榜
关于
AI 趋势
竞技场

所有文章 2026年4月21日

Kimi K2.6：领先的新开源权重模型

Moonshot 的 Kimi K2.6 是新的领先开源权重模型。Kimi K2.6 在 Artificial Analysis 智能指数（54）中排名第4，仅次于 Anthropic、Google 和 OpenAI（均为57）

关键要点：

➤ Agent 任务性能提升： Kimi K2.6 在我们的 GDPval-AA 评估中达到了 1520 的 Elo 分数，相比 Kimi K2.5 的 1309 Elo 分数有显著提升。GDPval-AA 是我们衡量通用 agent 性能的主要指标，用于评估在知识工作（如准备演示文稿和分析）中的表现。模型通过我们的开源参考 agent 框架 Stirrup，在 agent 循环中获得代码执行和网页浏览工具。这延续了 Kimi K2.6 在工具使用方面的优势，在 τ²-Bench Telecom 上保持了 96% 的得分，使其与其他前沿模型处于同一水平。

➤ 低幻觉率： Kimi K2.5 在 AA-Omniscience Index（我们的知识评估，同时衡量准确率和幻觉率）上得分为 6。这一得分主要得益于相对较低的 39% 幻觉率（相比 Kimi K2.5 的 65% 有所下降），表明模型在不确定时更倾向于放弃回答而非编造知识。Kimi K2.6 的低幻觉率使其与 Claude Opus 4.7（36%）和 MiniMax-M2.7（34%）等其他模型处于相似水平。

➤ 高 token 使用量： Kimi K2.6 展示了较高的 token 使用量，但与其他同智能层级的前沿模型一致。运行完整的 Artificial Analysis 智能指数时，Kimi K2.6 使用了约 1.6 亿个推理 token。这略低于 Claude Sonnet 4.6（约 1.9 亿个推理 token），但远高于 GPT 5.4（约 1.1 亿个推理 token）。

➤ 开源权重： Kimi K2.6 是一个混合专家（MoE）模型，总参数量为 1T，激活参数为 32B，与前两代模型 Kimi K2 Thinking 和 Kimi K2.5 相同。Kimi K2.6 再次推动了开源权重模型在智能方面的前沿。

➤ 第三方访问： Kimi K2.6 可通过 Moonshot 的第一方 API 以及第三方 API 提供商 Novita、Baseten、Fireworks 和 Parasail 访问。

➤ 多模态： Kimi K2.6 原生支持图像和视频输入以及文本输出。模型的最大上下文长度仍为 256k。