@karminski3:混元3藏了一手?我补充了其他模型分数,腾讯混元3大模型(hunyuan3-preview)刚刚上线,不过我注意到一件事…
@karminski3 混元3藏了一手? 我把其他模型分数补充了下 腾讯混元3大模型(hunyuan3-preview) 刚刚发布! 不过我注意到一个事情哈,…
腾讯发布 hunyuan3-preview。原文整理官方未列入表格但出现在折线图中的 Agentic 测试数据,并补充 GLM-5.1、Kimi-K2.6、Opus-4.7 等模型;对比显示 hy3-preview 在 SWE-Bench-Verified 为 77.4,GLM-4.7 为 73.8,BrowseComp、WideSearch 等指标也被纳入比较。
混元3藏了一手?我把其他模型分数补充了一下
腾讯混元3大模型(hunyuan3-preview)刚刚发布!
不过我注意到一个事情:官方放出的模型跑分表格有点说法。他们说这是基模,也就是 hy3-preview-base,并不是后训练模型 hy3-preview。
而这个表格里少了很多 Agentic 性能测试的评分,比如 SWE-Bench-Verified。
但是官方下面放出的折线图里有这些数据。不过折线图也有一个问题:里面没有最新的模型,比如 GLM-5.1、Kimi-K2.6、Opus-4.7。
于是我把这些缺失的数据整合到一起,给大家做了这个柱状图。
直接看结论:
#hy3 #hunyuan3 #混元3 #腾讯混元
从图上看,hy3-preview 的编程能力接近 GLM-4.7:77.4 VS 73.8。距离最新的 GLM-5.1、Kimi-K2.6 还有一定差距。当然,距离 Opus-4.7 的差距就更大了。
另外,其他 Agent 能力,比如 BrowseComp 和 WideSearch,也还有一定距离。这两个都是 Agent 搜索能力测试,一个测试搜索深度,一个测试搜索广度。
从目前来看,几个 Agent 能力测试中,hy3-preview 追上了国产 SOTA 模型去年 12 月的水平。目前仍然有 4 个月左右的差距。
不过考虑到这是 preview 版本,后续可能还会继续优化并放出正式版。期待一下表现。