Artificial Analysis · 评测

xAI 推出 Grok 4.3，提升智能体性能并降低定价

xAI launches Grok 4.3 with improved agentic performance and lower pricing

二〇二六年五月十二日 · 英文原文

摘要

xAI发布Grok 4.3，在Artificial Analysis Intelligence Index上获得53分，略高于Muse Spark和Claude Sonnet 4.6，领先Grok 4.20 4分。其运行完整benchmark套件成本为395美元，较Grok 4.20 0309 v2降低约20%。输入token价格降低37.5%，输出token价格降低58.3%。agentic任务性能显著提升，GDPval-AA ELO得分从1179升至1500，提升321分。在τ²-Bench Telecom上得分98%，与GLM-5.1持平，IFBench得分保持81%。AA-Omniscience Accuracy提升8分，但Non-Hallucination Rate下降8分。

xAI 发布 Grok 4.3，在 Artificial Analysis Intelligence Index 上获得 53 分，agentic 性能提升，输入价格降低约 40%，输出价格降低约 60%

Grok 4.3 的发布使 xAI 在 Intelligence Index 上略高于 Muse Spark 和 Claude Sonnet 4.6，并领先最新版 Grok 4.20 4 分。Grok 4.3 在提升 Artificial Analysis Intelligence Index 得分的同时，降低了运行 benchmark 套件的成本。

要点：

➤ Grok 4.3 相比 Grok 4.20 0309 v2 提升了单位智能成本： 它在 Intelligence Index 上得分更高，同时运行完整 benchmark 套件的成本更低。Grok 4.3 运行 Artificial Analysis Intelligence Index 的成本为 395 美元，比 Grok 4.20 0309 v2 低约 20%，尽管使用了更多的输出 token。这使其成为同等智能水平下成本较低的模型之一

➤ 真实世界 agentic 任务性能大幅提升： 最大的单项 benchmark 提升来自 GDPval-AA，Grok 4.3 的 ELO 得分为 1500，比 Grok 4.20 0309 v2 的 1179 分提高了 321 分，超越了 Gemini 3.1 Pro Preview、Muse Spark、Gpt-5.4 mini (xhigh) 和 Kimi K2.5。Grok 4.3 缩小了与 GDPval-AA 领先模型的差距，但仍落后 GPT-5.5 (xhigh) 276 个 Elo 分，根据标准 Elo 公式，对 GPT-5.5 (xhigh) 的预期胜率约为 17%

➤ Grok 4.3 在指令遵循和 agentic 客户支持任务上表现强劲。它在 𝜏²-Bench Telecom 上提升 5 分，达到 98%，与 GLM-5.1 持平。Grok 4.3 保持了 Grok 4.20 0309 v2 的 81% IFBench 得分

➤ AA-Omniscience Accuracy 提升 8 分，但代价是 AA-Omniscience Non-Hallucination Rate 下降 8 分，因此 Grok 4.20 0309 v2 在 AA-Omniscience Non-Hallucination Rate 上仍领先，其次是 MiMo-V2.5-Pro，与 Grok 4.3 持平

祝贺 xAI 发布如此令人印象深刻的成果！

此次发布显示运行 Artificial Analysis Intelligence Index 的成本效率提升，Grok 4.3 在智能与成本的帕累托前沿上占据有利位置

得益于输入 token 价格降低 37.5% 和输出 token 价格降低 58.3%，运行 Intelligence Index 评估的成本为 395 美元，相比 Grok 4.20 0309 v2 整体下降约 20%

Grok 4.3 运行 Artificial Analysis Intelligence Index 时使用的输出 token 比 Grok 4.20 0309 v2 多约 44%，但与 Minimax M2.7 等模型使用的 token 数量相近，且仍比其他领先模型更简洁

最大的单项 benchmark 提升来自 GDPval-AA，Grok 4.3 的 ELO 得分为 1500，比 Grok 4.20 0309 v2 的 1179 分提高了 321 分

各项评估的细分，包括在 𝜏²-Bench Telecom 和 IFBench 上的领先得分：

更多详情和 benchmark 请参见 Artificial Analysis：https://artificialanalysis.ai/models/grok-4-3

译自 Artificial Analysis · 评测 · 录于二〇二六年五月十二日