一声棒喝,本不立文字
偏要著録,已是二义

Artificial Analysis · 评测

Kimi K2.6:新的领先开源权重模型

Kimi K2.6: The new leading open weights model

二〇二六年五月十二日 · 英文原文

Moonshot 发布 Kimi K2.6,为开源权重混合专家(MoE)模型,总参数量 1T,激活参数 32B。该模型在 Artificial Analysis 智能指数中排名第4(54分),在 GDPval-AA agent 评估中 Elo 分数达 1520,较 K2.5 提升 211 分。AA-Omniscience Index 得分为 6,幻觉率 39%。支持图像和视频输入,最大上下文 256k,可通过 Moonshot 及 Novita、Baseten、Fireworks、Parasail 等第三方 API 访问。

Kimi K2.6:领先的新开源权重模型

K

所有文章 2026年4月21日

Kimi K2.6:领先的新开源权重模型

Moonshot 的 Kimi K2.6 是新的领先开源权重模型。Kimi K2.6 在 Artificial Analysis 智能指数(54)中排名第4,仅次于 Anthropic、Google 和 OpenAI(均为57)

关键要点:

➤ Agent 任务性能提升: Kimi K2.6 在我们的 GDPval-AA 评估中达到了 1520 的 Elo 分数,相比 Kimi K2.5 的 1309 Elo 分数有显著提升。GDPval-AA 是我们衡量通用 agent 性能的主要指标,用于评估在知识工作(如准备演示文稿和分析)中的表现。模型通过我们的开源参考 agent 框架 Stirrup,在 agent 循环中获得代码执行和网页浏览工具。这延续了 Kimi K2.6 在工具使用方面的优势,在 τ²-Bench Telecom 上保持了 96% 的得分,使其与其他前沿模型处于同一水平。

➤ 低幻觉率: Kimi K2.5 在 AA-Omniscience Index(我们的知识评估,同时衡量准确率和幻觉率)上得分为 6。这一得分主要得益于相对较低的 39% 幻觉率(相比 Kimi K2.5 的 65% 有所下降),表明模型在不确定时更倾向于放弃回答而非编造知识。Kimi K2.6 的低幻觉率使其与 Claude Opus 4.7(36%)和 MiniMax-M2.7(34%)等其他模型处于相似水平。

➤ 高 token 使用量: Kimi K2.6 展示了较高的 token 使用量,但与其他同智能层级的前沿模型一致。运行完整的 Artificial Analysis 智能指数时,Kimi K2.6 使用了约 1.6 亿个推理 token。这略低于 Claude Sonnet 4.6(约 1.9 亿个推理 token),但远高于 GPT 5.4(约 1.1 亿个推理 token)。

➤ 开源权重: Kimi K2.6 是一个混合专家(MoE)模型,总参数量为 1T,激活参数为 32B,与前两代模型 Kimi K2 Thinking 和 Kimi K2.5 相同。Kimi K2.6 再次推动了开源权重模型在智能方面的前沿。

➤ 第三方访问: Kimi K2.6 可通过 Moonshot 的第一方 API 以及第三方 API 提供商 Novita、Baseten、Fireworks 和 Parasail 访问。

➤ 多模态: Kimi K2.6 原生支持图像和视频输入以及文本输出。模型的最大上下文长度仍为 256k。

Image 1

Kimi K2.6 的 token 使用量显著高于 Kimi K2.5。

Image 2

Kimi K2.5 在 AA-Omniscience Index 上得分为 6,主要得益于低幻觉率。

Image 3

以下是 Kimi K2.6 的完整评估结果:

Image 4

查看 Artificial Analysis 上关于 Kimi K2.6 的更多详情和基准测试:https://artificialanalysis.ai/models/kimi-k2-6

想深入了解?通过我们的 Discord 社区讨论该模型:https://discord.gg/ATfzv9v9

阅读最新文章

Image 5 ### OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct OpenBMB 发布新模型 2026年5月11日Image 6 ### 近期开源权重模型发布 对 Moonshot AI、小米和 DeepSeek 近期开源权重模型发布的思考 2026年4月30日Image 7 ### xAI 发布 Grok 4.3,提升 agent 性能并降低定价 Grok 4.3 的基准测试与分析 2026年4月30日

Artificial Analysis

订阅我们的新闻通讯

邮箱地址 订阅

Artificial Analysis

探索

公司

XLinkedIn小红书Discord

© 2026 Artificial Analysis

使用条款隐私政策

译自 Artificial Analysis · 评测 · 录于 二〇二六年五月十二日