@karminski3:Qwen 这是跟 Gemma 杠上了?刚推出的 Qwen3.6-35B-A3B 性能解读,看看能不能打过 Gemm…
@karminski3 不是qwen这是跟gemma杠上了? 给大家带来刚发布的 Qwen3.6-35B-A3B 的性能解读, 来看究竟能不能打得过 Gemm…
内容分析了 Qwen3.6-35B-A3B benchmark 表现,称其提升集中在 Coding Agent 与 General Agent,多项工具调用、长链执行和 MCPMark 指标领先;Knowledge、STEM & Reasoning 提升有限。另介绍 Harness Agent 结合 Doubao-Seed-2.0-Lite,用于连续分析 CS2 对局视频并生成训练建议。
不是 Qwen,这是跟 Gemma 杠上了?
给大家带来刚发布的 Qwen3.6-35B-A3B 的性能解读,看看它到底能不能打得过 Gemma4?
我没有像官方那样直接把 SOTA 成绩做成柱状图,而是把披露的所有 benchmark 成绩按每个大项单独做成了 SOTA 高亮表格。
从提升趋势看,Qwen3.6-35B-A3B 的提升方向确实是 agent / agentic coding。在 Coding Agent 里,它拿下了 10 项中的 6 项表内第一,尤其是 Terminal-Bench 2.0、Claw-Eval Avg、SkillsBench Avg5、QwenClawBench、NL2Repo、QwenWebBench 这些更偏“工具调用 + 长链执行 + 环境操作 + 前端生成”的项目,提升很集中。
General Agent 里,它也拿下了 DeepPlanning 和 MCPMark 两项第一,说明不只是编码,通用智能体执行和 MCP 协议使用也有增强。
相比之下,Knowledge(知识能力)几乎没有领先,STEM & Reasoning 也只是 GPQA 和 AIME26 两项占优,所以这次更新的重点不是全面的知识/推理能力跃升,更多是把模型能力重新往 agent 场景做了强化和对齐。
不过从测试来看,更新之后 Gemma4 面临两面夹击:考验激活参数量性能的测试,比如 MMLU 系列,有旧的 Qwen3.5-27B;Agent 能力方面,则有这次的 Qwen3.6-35B-A3B。建议 Gemma 赶紧也发一个 4.1,让本地部署玩家开心一下。
不过一次更新就有这种水平的提升,而且目前 Qwen3.5-27B Dense 仍然是几个指标的 SOTA,感觉 Qwen3.6-27B Dense 有机会在 60B 以内做到真正的 SOTA。我本地龙虾/爱马仕已经饥渴难耐了。
#qwen36 #qwen #阿里千问
前几项可以看到,优化集中在 Agent/Agent 编码能力,而 MMLU 这些考验知识能力(激活参数量是王道)的项目,没有巨大提升 https://t.co/kdkSiW1zDz
完了!我的整活被官方相中了!
搞了个 AI 电竞教练的 Harness Agent 框架,把 CS2 录屏视频拖进去后,就能分析走位、身法、对枪、预瞄、投掷物、经济等各种数据,然后还能给出建议和训练方向。
结果被字节跳动相中了,于是结合 Doubao-Seed-2.0-Lite 整了个大活,连续运行 25 小时不间断分析对局视频,总结玩家的帝王干拉是否到位(x
这次 Doubao-Seed-2.0-Lite 宣发 Demo 视频里那个 AI 电竞教练,就是这个 Demo 哈。
以及,具体的整活视频还在制作中~大家稍安勿躁,稍后给大家带来全部整活细节~
#seed20lite #doubao #doubaoseed #字节跳动