X · 研究者一手

@rasbt 等 DeepSeek V4 期间，我们拿到了两个很强的开源权重 LLM

@rasbt While waiting for DeepSeek V4 we got two very strong open-weight LLMs fr…

二〇二六年五月十二日 · 英文原文

摘要

印度Sarvam AI发布两款开源权重推理LLM：Sarvam 30B和Sarvam 105B。30B模型采用分组查询注意力（GQA），105B模型采用多头潜在注意力（MLA）。105B模型在SWE-Bench Verified编码能力较弱，但在智能体推理（Tau2）上优于Deepseek R1 0528；30B模型在印度语言处理上优于其他模型，分词效率提高4倍，吞吐量比Qwen3-30B-A3B高20-40%。

在等待 DeepSeek V4 发布之际，昨天印度推出了两款非常强大的开源权重 LLM。

共有两种尺寸：Sarvam 30B 和 Sarvam 105B 模型（均为推理模型）。

有趣的是，较小的 30B 模型使用了“经典”的分组查询注意力（GQA），而较大的 105B 变体则切换到了 DeepSeek 风格的多头潜在注意力（MLA）。

正如我之前在分析中提到的，这两种都是流行的注意力变体，用于减少 KV 缓存大小（上下文越长，相比常规注意力节省得越多）。

MLA 实现起来更复杂，但根据 2024 年 DeepSeek V2 论文中的消融研究，它能带来更好的建模性能（据我所知，这仍然是目前最直接的同类对比）。

说到建模性能，105B 模型与同尺寸的 LLM 相当：gpt-oss 120B 和 Qwen3-Next（80B）。Sarvam 在某些任务上表现更好，在其他任务上稍差，但平均而言大致相同。

在 SWE-Bench Verified 方面，它并非最强的编码模型，但在智能体推理和任务完成（Tau2）方面出奇地好，甚至优于 Deepseek R1 0528。

至于较小的 Sarvam 30B，与之最可比的模型可能是 Nemotron 3 Nano 30B，后者在 SWE-Bench Verified 的编码能力和智能体推理（Tau2）上略胜一筹，但在其他方面（Live Code Bench v6、BrowseComp）稍逊。

遗憾的是，Qwen3-30B-A3B 未出现在基准测试中，据我所知，它是该尺寸类别中最流行的模型。不过有趣的是，Sarvam 团队在计算性能分析中将他们的 30B 模型与 Qwen3-30B-A3B 进行了对比，发现由于代码和内核优化，Sarvam 的吞吐量比 Qwen3 高出 20-40%。

无论如何，上述基准测试未能体现的一点是 Sarvam 在印度语言上的出色表现。根据一个评判模型，Sarvam 团队发现，在处理印度文本时，他们的模型在 90% 的情况下优于其他模型。（由于他们从头构建并训练了分词器，Sarvam 在印度语言上的分词效率也提高了 4 倍。）

译自 X · 研究者一手 · 录于二〇二六年五月十二日