30B-A3B小模型跑分碾压DeepSeek-V4-Pro？

@karminski3 这一波估计XX词典凉的透透的了... 刚看到这个图坐不住了, 30B-A3B 的小模型跑分碾压 DeepSeek-V4-Pro? 谁给…

二〇二六年五月二十二日 · 英文原文

摘要

腾讯发布三个翻译专用大模型Hy-MT2-1.8B、Hy-MT2-7B、Hy-MT2-30B-A3B。其中30B-A3B版本在DomainMTBench（金融、法律、医疗、技术等特定领域翻译benchmark）测试中全面超越DeepSeek-V4-Pro。模型支持33种语言（含粤语），指令遵循能力在IFBench测试中优于DeepSeek-V4-Pro。1.8B量化版本占用内存不到1G，可搭配LunaTranslator用于翻译网页、游戏、PDF、电子书等。

这一波估计XX词典凉得透透的了……

刚看到这个图坐不住了，30B-A3B 的小模型跑分碾压 DeepSeek-V4-Pro？谁给你的勇气？然后定睛一看，原来是翻译专用大模型。

腾讯刚刚放出了3个翻译专用大模型，分别是 Hy-MT2-1.8B、Hy-MT2-7B、Hy-MT2-30B-A3B。其中 Hy-MT2-30B-A3B 在 DomainMTBench（这是一个专门测试特定领域翻译能力的 benchmark，包含金融、法律、医疗、技术等）测试中全面超越了 DeepSeek-V4-Pro。

直接给大家来一手测试：

#hymt2 #翻译大模型

看图2、图3，这个还是 1.8B 的翻译效果，可以说是相当可用了。如果你没听说过 LunaTranslator，我建议自己搜一波。1.8B 量化版本甚至只需要不到1G内存。随便找个 MacMini 都能跑。直接能搭配使用翻译网页、游戏、PDF、电子书什么的都能搞定。

模型另外的特点是支持33种语言（甚至支持粤语）。而且指令遵循特别好（相对小模型而言），指令遵循好的好处是可以做到精确翻译，比如可以让它只翻译混合文本中的描述性段落，而不翻译公式、代码或者引用。这些都能做到，比传统翻译 API 效果好很多。

官方测试30B-A3B模型甚至在指令遵循测试上（比如 IFBench）也要比 DeepSeek-V4-Pro 好。当然我实际用下来 DeepSeek-V4-Pro 的指令遵循其实并不是特别好的。比如 Gemma4-26B-A4B 其实指令遵循都比 DeepSeek 要好。

最后本地部署直接 llama.cpp + Hy-MT2-1.8B-GGUF + LunaTranslator，齐活家人们。

译自 X · 研究者一手 · 录于二〇二六年五月二十二日