X · 研究者一手

@karminski3：Qwen 这是跟 Gemma 杠上了？刚推出的 Qwen3.6-35B-A3B 性能解读，看看能不能打过 Gemm…

@karminski3 不是qwen这是跟gemma杠上了? 给大家带来刚发布的 Qwen3.6-35B-A3B 的性能解读, 来看究竟能不能打得过 Gemm…

二〇二六年五月八日 · 英文原文

摘要

内容分析了 Qwen3.6-35B-A3B benchmark 表现，称其提升集中在 Coding Agent 与 General Agent，多项工具调用、长链执行和 MCPMark 指标领先；Knowledge、STEM & Reasoning 提升有限。另介绍 Harness Agent 结合 Doubao-Seed-2.0-Lite，用于连续分析 CS2 对局视频并生成训练建议。

不是 Qwen，这是跟 Gemma 杠上了？

给大家带来刚发布的 Qwen3.6-35B-A3B 的性能解读，看看它到底能不能打得过 Gemma4？

我没有像官方那样直接把 SOTA 成绩做成柱状图，而是把披露的所有 benchmark 成绩按每个大项单独做成了 SOTA 高亮表格。

从提升趋势看，Qwen3.6-35B-A3B 的提升方向确实是 agent / agentic coding。在 Coding Agent 里，它拿下了 10 项中的 6 项表内第一，尤其是 Terminal-Bench 2.0、Claw-Eval Avg、SkillsBench Avg5、QwenClawBench、NL2Repo、QwenWebBench 这些更偏“工具调用 + 长链执行 + 环境操作 + 前端生成”的项目，提升很集中。

General Agent 里，它也拿下了 DeepPlanning 和 MCPMark 两项第一，说明不只是编码，通用智能体执行和 MCP 协议使用也有增强。

相比之下，Knowledge（知识能力）几乎没有领先，STEM & Reasoning 也只是 GPQA 和 AIME26 两项占优，所以这次更新的重点不是全面的知识/推理能力跃升，更多是把模型能力重新往 agent 场景做了强化和对齐。

不过从测试来看，更新之后 Gemma4 面临两面夹击：考验激活参数量性能的测试，比如 MMLU 系列，有旧的 Qwen3.5-27B；Agent 能力方面，则有这次的 Qwen3.6-35B-A3B。建议 Gemma 赶紧也发一个 4.1，让本地部署玩家开心一下。

不过一次更新就有这种水平的提升，而且目前 Qwen3.5-27B Dense 仍然是几个指标的 SOTA，感觉 Qwen3.6-27B Dense 有机会在 60B 以内做到真正的 SOTA。我本地龙虾/爱马仕已经饥渴难耐了。

#qwen36 #qwen #阿里千问

前几项可以看到，优化集中在 Agent/Agent 编码能力，而 MMLU 这些考验知识能力（激活参数量是王道）的项目，没有巨大提升 https://t.co/kdkSiW1zDz

完了！我的整活被官方相中了！

搞了个 AI 电竞教练的 Harness Agent 框架，把 CS2 录屏视频拖进去后，就能分析走位、身法、对枪、预瞄、投掷物、经济等各种数据，然后还能给出建议和训练方向。

结果被字节跳动相中了，于是结合 Doubao-Seed-2.0-Lite 整了个大活，连续运行 25 小时不间断分析对局视频，总结玩家的帝王干拉是否到位（x

这次 Doubao-Seed-2.0-Lite 宣发 Demo 视频里那个 AI 电竞教练，就是这个 Demo 哈。

以及，具体的整活视频还在制作中～大家稍安勿躁，稍后给大家带来全部整活细节～

#seed20lite #doubao #doubaoseed #字节跳动

译自 X · 研究者一手 · 录于二〇二六年五月八日