一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@karminski3 难道是拼好模?并不!混元3架构解析:腾讯混元3刚刚推出,先说结论:基础架构适当改进和整合,参数调节下…

@karminski3 难道是拼好模? 并不! 混元3架构解析! 腾讯混元3刚刚发布, 给大家带来架构解析, 先说结论: 基础架构适当改进和整合, 参数调节下…

二〇二六年五月八日 · 英文原文

腾讯发布混元3架构解析:HYV3Attention继承Apertus,解码层参考DeepSeek V3,MoE外壳采用MiniMax M2,routing使用sigmoid门控与偏置校正,experts包装来自Qwen3-MoE;MoE top-8后乘router_scaling_factor=2.826,并启用fp32 combine处理bf16两路输出相加。

难道是拼好模?并不是!混元3架构解析!

腾讯混元3刚刚发布,给大家带来架构解析。先说结论:基础架构做了适当改进和整合,参数调节下了真功夫。

一个现代大模型基本上就是由这几个大部件拼起来的:attention、解码层、MoE 容器 + routing + experts,以及位置编码。

这几年开源社区把这些零件卷得很成熟了。那腾讯这次是怎么搭的?

Attention: class HYV3Attention(ApertusAttention) — 继承 Apertus,一行没改
解码层:架构照搬 DeepSeek V3 的 DeepseekV3DecoderLayer,内部填充细节不同
MoE 外壳:MiniMax M2 的 MiniMaxM2SparseMoeBlock
Routing:算法(sigmoid 门控 + 偏置校正)类似 DeepSeek V3
Experts 权重:class HYV3Experts(Qwen3MoeExperts) — Qwen3 MOE 包装

拼起来就是:Apertus 的头,DSv3 的身子,M2 的 MoE 外壳,DSv3 的 routing,Qwen3-MoE 的 experts。

难道真的是【拼好模】吗?

#hy3 #hunyuan3 #混元3 #腾讯混元

并不是。如果这么算,Kimi-k2.6 可是完全复用了 DSv3 的文本模型架构,只是加了个视觉。

在我看来,这次的新模型反而是最稳的工程选择。混元3将这些成熟方案组合起来,然后在几个具体配比上下了功夫:

router_scaling_factor = 2.826。MoE routing 选出 top-8 experts,权重归一化后,Hy3 乘了个 2.826,相当于把 MoE 分支整体“声音调大”了 2.8 倍。说明这附近是这一代大 MoE 的甜区。(DSv3-Chat 是 x2.5)

enable_moe_fp32_combine = True。在 bf16 训练里,“routing experts”和“shared experts”两路输出要加到一起。两边数值量级常常会差出 bf16 能分辨的精度范围。Hy3 的做法是这一步加法临时升到 fp32 再加,加完再转回 bf16。算是用一点吞吐换稳定性。

所以结论而言,我觉得这次 hy3-preview 的意义,更多是证明腾讯已经搭建了现代化的训练流程,然后打开流水线,试生产了第一个热机产品:hy3-preview。

期待接下来马力全开的 hy3 正式版。

译自 X · 研究者一手 · 录于 二〇二六年五月八日