X · 研究者一手

30B-A3B小模型跑分碾压DeepSeek-V4-Pro?

@karminski3 这一波估计XX词典凉的透透的了... 刚看到这个图坐不住了, 30B-A3B 的小模型跑分碾压 DeepSeek-V4-Pro? 谁给…

二〇二六年五月二十二日 · 英文原文

腾讯发布三个翻译专用大模型Hy-MT2-1.8B、Hy-MT2-7B、Hy-MT2-30B-A3B。其中30B-A3B版本在DomainMTBench(金融、法律、医疗、技术等特定领域翻译benchmark)测试中全面超越DeepSeek-V4-Pro。模型支持33种语言(含粤语),指令遵循能力在IFBench测试中优于DeepSeek-V4-Pro。1.8B量化版本占用内存不到1G,可搭配LunaTranslator用于翻译网页、游戏、PDF、电子书等。

这一波估计XX词典凉得透透的了……

刚看到这个图坐不住了,30B-A3B 的小模型跑分碾压 DeepSeek-V4-Pro?谁给你的勇气?然后定睛一看,原来是翻译专用大模型。

腾讯刚刚放出了3个翻译专用大模型,分别是 Hy-MT2-1.8B、Hy-MT2-7B、Hy-MT2-30B-A3B。其中 Hy-MT2-30B-A3B 在 DomainMTBench(这是一个专门测试特定领域翻译能力的 benchmark,包含金融、法律、医疗、技术等)测试中全面超越了 DeepSeek-V4-Pro。

直接给大家来一手测试:

#hymt2 #翻译大模型

看图2、图3,这个还是 1.8B 的翻译效果,可以说是相当可用了。如果你没听说过 LunaTranslator,我建议自己搜一波。1.8B 量化版本甚至只需要不到1G内存。随便找个 MacMini 都能跑。直接能搭配使用翻译网页、游戏、PDF、电子书什么的都能搞定。

模型另外的特点是支持33种语言(甚至支持粤语)。而且指令遵循特别好(相对小模型而言),指令遵循好的好处是可以做到精确翻译,比如可以让它只翻译混合文本中的描述性段落,而不翻译公式、代码或者引用。这些都能做到,比传统翻译 API 效果好很多。

官方测试30B-A3B模型甚至在指令遵循测试上(比如 IFBench)也要比 DeepSeek-V4-Pro 好。当然我实际用下来 DeepSeek-V4-Pro 的指令遵循其实并不是特别好的。比如 Gemma4-26B-A4B 其实指令遵循都比 DeepSeek 要好。

最后本地部署直接 llama.cpp + Hy-MT2-1.8B-GGUF + LunaTranslator,齐活家人们。

译自 X · 研究者一手 · 录于 二〇二六年五月二十二日