@rasbt 等 DeepSeek V4 期间,我们拿到了两个很强的开源权重 LLM
@rasbt While waiting for DeepSeek V4 we got two very strong open-weight LLMs fr…
印度Sarvam AI发布两款开源权重推理LLM:Sarvam 30B和Sarvam 105B。30B模型采用分组查询注意力(GQA),105B模型采用多头潜在注意力(MLA)。105B模型在SWE-Bench Verified编码能力较弱,但在智能体推理(Tau2)上优于Deepseek R1 0528;30B模型在印度语言处理上优于其他模型,分词效率提高4倍,吞吐量比Qwen3-30B-A3B高20-40%。
在等待 DeepSeek V4 发布之际,昨天印度推出了两款非常强大的开源权重 LLM。
共有两种尺寸:Sarvam 30B 和 Sarvam 105B 模型(均为推理模型)。
有趣的是,较小的 30B 模型使用了“经典”的分组查询注意力(GQA),而较大的 105B 变体则切换到了 DeepSeek 风格的多头潜在注意力(MLA)。
正如我之前在分析中提到的,这两种都是流行的注意力变体,用于减少 KV 缓存大小(上下文越长,相比常规注意力节省得越多)。
MLA 实现起来更复杂,但根据 2024 年 DeepSeek V2 论文中的消融研究,它能带来更好的建模性能(据我所知,这仍然是目前最直接的同类对比)。
说到建模性能,105B 模型与同尺寸的 LLM 相当:gpt-oss 120B 和 Qwen3-Next(80B)。Sarvam 在某些任务上表现更好,在其他任务上稍差,但平均而言大致相同。
在 SWE-Bench Verified 方面,它并非最强的编码模型,但在智能体推理和任务完成(Tau2)方面出奇地好,甚至优于 Deepseek R1 0528。
至于较小的 Sarvam 30B,与之最可比的模型可能是 Nemotron 3 Nano 30B,后者在 SWE-Bench Verified 的编码能力和智能体推理(Tau2)上略胜一筹,但在其他方面(Live Code Bench v6、BrowseComp)稍逊。
遗憾的是,Qwen3-30B-A3B 未出现在基准测试中,据我所知,它是该尺寸类别中最流行的模型。不过有趣的是,Sarvam 团队在计算性能分析中将他们的 30B 模型与 Qwen3-30B-A3B 进行了对比,发现由于代码和内核优化,Sarvam 的吞吐量比 Qwen3 高出 20-40%。
无论如何,上述基准测试未能体现的一点是 Sarvam 在印度语言上的出色表现。根据一个评判模型,Sarvam 团队发现,在处理印度文本时,他们的模型在 90% 的情况下优于其他模型。(由于他们从头构建并训练了分词器,Sarvam 在印度语言上的分词效率也提高了 4 倍。)