xAI 推出 Grok 4.3,提升智能体性能并降低定价
xAI launches Grok 4.3 with improved agentic performance and lower pricing
xAI发布Grok 4.3,在Artificial Analysis Intelligence Index上获得53分,略高于Muse Spark和Claude Sonnet 4.6,领先Grok 4.20 4分。其运行完整benchmark套件成本为395美元,较Grok 4.20 0309 v2降低约20%。输入token价格降低37.5%,输出token价格降低58.3%。agentic任务性能显著提升,GDPval-AA ELO得分从1179升至1500,提升321分。在τ²-Bench Telecom上得分98%,与GLM-5.1持平,IFBench得分保持81%。AA-Omniscience Accuracy提升8分,但Non-Hallucination Rate下降8分。
xAI 发布 Grok 4.3,在 Artificial Analysis Intelligence Index 上获得 53 分,agentic 性能提升,输入价格降低约 40%,输出价格降低约 60%
Grok 4.3 的发布使 xAI 在 Intelligence Index 上略高于 Muse Spark 和 Claude Sonnet 4.6,并领先最新版 Grok 4.20 4 分。Grok 4.3 在提升 Artificial Analysis Intelligence Index 得分的同时,降低了运行 benchmark 套件的成本。
要点:
➤ Grok 4.3 相比 Grok 4.20 0309 v2 提升了单位智能成本: 它在 Intelligence Index 上得分更高,同时运行完整 benchmark 套件的成本更低。Grok 4.3 运行 Artificial Analysis Intelligence Index 的成本为 395 美元,比 Grok 4.20 0309 v2 低约 20%,尽管使用了更多的输出 token。这使其成为同等智能水平下成本较低的模型之一
➤ 真实世界 agentic 任务性能大幅提升: 最大的单项 benchmark 提升来自 GDPval-AA,Grok 4.3 的 ELO 得分为 1500,比 Grok 4.20 0309 v2 的 1179 分提高了 321 分,超越了 Gemini 3.1 Pro Preview、Muse Spark、Gpt-5.4 mini (xhigh) 和 Kimi K2.5。Grok 4.3 缩小了与 GDPval-AA 领先模型的差距,但仍落后 GPT-5.5 (xhigh) 276 个 Elo 分,根据标准 Elo 公式,对 GPT-5.5 (xhigh) 的预期胜率约为 17%
➤ Grok 4.3 在指令遵循和 agentic 客户支持任务上表现强劲。它在 𝜏²-Bench Telecom 上提升 5 分,达到 98%,与 GLM-5.1 持平。Grok 4.3 保持了 Grok 4.20 0309 v2 的 81% IFBench 得分
➤ AA-Omniscience Accuracy 提升 8 分,但代价是 AA-Omniscience Non-Hallucination Rate 下降 8 分,因此 Grok 4.20 0309 v2 在 AA-Omniscience Non-Hallucination Rate 上仍领先,其次是 MiMo-V2.5-Pro,与 Grok 4.3 持平
祝贺 xAI 发布如此令人印象深刻的成果!

此次发布显示运行 Artificial Analysis Intelligence Index 的成本效率提升,Grok 4.3 在智能与成本的帕累托前沿上占据有利位置
得益于输入 token 价格降低 37.5% 和输出 token 价格降低 58.3%,运行 Intelligence Index 评估的成本为 395 美元,相比 Grok 4.20 0309 v2 整体下降约 20%

Grok 4.3 运行 Artificial Analysis Intelligence Index 时使用的输出 token 比 Grok 4.20 0309 v2 多约 44%,但与 Minimax M2.7 等模型使用的 token 数量相近,且仍比其他领先模型更简洁

最大的单项 benchmark 提升来自 GDPval-AA,Grok 4.3 的 ELO 得分为 1500,比 Grok 4.20 0309 v2 的 1179 分提高了 321 分

各项评估的细分,包括在 𝜏²-Bench Telecom 和 IFBench 上的领先得分:

更多详情和 benchmark 请参见 Artificial Analysis:https://artificialanalysis.ai/models/grok-4-3