Kimi K2.6:新的领先开源权重模型
Kimi K2.6: The new leading open weights model
Moonshot 发布 Kimi K2.6,为开源权重混合专家(MoE)模型,总参数量 1T,激活参数 32B。该模型在 Artificial Analysis 智能指数中排名第4(54分),在 GDPval-AA agent 评估中 Elo 分数达 1520,较 K2.5 提升 211 分。AA-Omniscience Index 得分为 6,幻觉率 39%。支持图像和视频输入,最大上下文 256k,可通过 Moonshot 及 Novita、Baseten、Fireworks、Parasail 等第三方 API 访问。
Kimi K2.6:领先的新开源权重模型
所有文章 2026年4月21日
Kimi K2.6:领先的新开源权重模型
Moonshot 的 Kimi K2.6 是新的领先开源权重模型。Kimi K2.6 在 Artificial Analysis 智能指数(54)中排名第4,仅次于 Anthropic、Google 和 OpenAI(均为57)
关键要点:
➤ Agent 任务性能提升: Kimi K2.6 在我们的 GDPval-AA 评估中达到了 1520 的 Elo 分数,相比 Kimi K2.5 的 1309 Elo 分数有显著提升。GDPval-AA 是我们衡量通用 agent 性能的主要指标,用于评估在知识工作(如准备演示文稿和分析)中的表现。模型通过我们的开源参考 agent 框架 Stirrup,在 agent 循环中获得代码执行和网页浏览工具。这延续了 Kimi K2.6 在工具使用方面的优势,在 τ²-Bench Telecom 上保持了 96% 的得分,使其与其他前沿模型处于同一水平。
➤ 低幻觉率: Kimi K2.5 在 AA-Omniscience Index(我们的知识评估,同时衡量准确率和幻觉率)上得分为 6。这一得分主要得益于相对较低的 39% 幻觉率(相比 Kimi K2.5 的 65% 有所下降),表明模型在不确定时更倾向于放弃回答而非编造知识。Kimi K2.6 的低幻觉率使其与 Claude Opus 4.7(36%)和 MiniMax-M2.7(34%)等其他模型处于相似水平。
➤ 高 token 使用量: Kimi K2.6 展示了较高的 token 使用量,但与其他同智能层级的前沿模型一致。运行完整的 Artificial Analysis 智能指数时,Kimi K2.6 使用了约 1.6 亿个推理 token。这略低于 Claude Sonnet 4.6(约 1.9 亿个推理 token),但远高于 GPT 5.4(约 1.1 亿个推理 token)。
➤ 开源权重: Kimi K2.6 是一个混合专家(MoE)模型,总参数量为 1T,激活参数为 32B,与前两代模型 Kimi K2 Thinking 和 Kimi K2.5 相同。Kimi K2.6 再次推动了开源权重模型在智能方面的前沿。
➤ 第三方访问: Kimi K2.6 可通过 Moonshot 的第一方 API 以及第三方 API 提供商 Novita、Baseten、Fireworks 和 Parasail 访问。
➤ 多模态: Kimi K2.6 原生支持图像和视频输入以及文本输出。模型的最大上下文长度仍为 256k。

Kimi K2.6 的 token 使用量显著高于 Kimi K2.5。

Kimi K2.5 在 AA-Omniscience Index 上得分为 6,主要得益于低幻觉率。

以下是 Kimi K2.6 的完整评估结果:

查看 Artificial Analysis 上关于 Kimi K2.6 的更多详情和基准测试:https://artificialanalysis.ai/models/kimi-k2-6
想深入了解?通过我们的 Discord 社区讨论该模型:https://discord.gg/ATfzv9v9
阅读最新文章
### OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct OpenBMB 发布新模型 2026年5月11日
### 近期开源权重模型发布 对 Moonshot AI、小米和 DeepSeek 近期开源权重模型发布的思考 2026年4月30日
### xAI 发布 Grok 4.3,提升 agent 性能并降低定价 Grok 4.3 的基准测试与分析 2026年4月30日
订阅我们的新闻通讯
邮箱地址 订阅
Artificial Analysis
探索
公司
© 2026 Artificial Analysis