X · 研究者一手

@karminski3：混元3藏了一手？我补充了其他模型分数，腾讯混元3大模型（hunyuan3-preview）刚刚上线，不过我注意到一件事…

@karminski3 混元3藏了一手? 我把其他模型分数补充了下腾讯混元3大模型(hunyuan3-preview) 刚刚发布! 不过我注意到一个事情哈,…

二〇二六年五月八日 · 英文原文

摘要

腾讯发布 hunyuan3-preview。原文整理官方未列入表格但出现在折线图中的 Agentic 测试数据，并补充 GLM-5.1、Kimi-K2.6、Opus-4.7 等模型；对比显示 hy3-preview 在 SWE-Bench-Verified 为 77.4，GLM-4.7 为 73.8，BrowseComp、WideSearch 等指标也被纳入比较。

混元3藏了一手？我把其他模型分数补充了一下

腾讯混元3大模型（hunyuan3-preview）刚刚发布！

不过我注意到一个事情：官方放出的模型跑分表格有点说法。他们说这是基模，也就是 hy3-preview-base，并不是后训练模型 hy3-preview。

而这个表格里少了很多 Agentic 性能测试的评分，比如 SWE-Bench-Verified。

但是官方下面放出的折线图里有这些数据。不过折线图也有一个问题：里面没有最新的模型，比如 GLM-5.1、Kimi-K2.6、Opus-4.7。

于是我把这些缺失的数据整合到一起，给大家做了这个柱状图。

直接看结论：

#hy3 #hunyuan3 #混元3 #腾讯混元

从图上看，hy3-preview 的编程能力接近 GLM-4.7：77.4 VS 73.8。距离最新的 GLM-5.1、Kimi-K2.6 还有一定差距。当然，距离 Opus-4.7 的差距就更大了。

另外，其他 Agent 能力，比如 BrowseComp 和 WideSearch，也还有一定距离。这两个都是 Agent 搜索能力测试，一个测试搜索深度，一个测试搜索广度。

从目前来看，几个 Agent 能力测试中，hy3-preview 追上了国产 SOTA 模型去年 12 月的水平。目前仍然有 4 个月左右的差距。

不过考虑到这是 preview 版本，后续可能还会继续优化并放出正式版。期待一下表现。

译自 X · 研究者一手 · 录于二〇二六年五月八日