@karminski3 难道是拼好模?并不!混元3架构解析:腾讯混元3刚刚推出,先说结论:基础架构适当改进和整合,参数调节下…
@karminski3 难道是拼好模? 并不! 混元3架构解析! 腾讯混元3刚刚发布, 给大家带来架构解析, 先说结论: 基础架构适当改进和整合, 参数调节下…
腾讯发布混元3架构解析:HYV3Attention继承Apertus,解码层参考DeepSeek V3,MoE外壳采用MiniMax M2,routing使用sigmoid门控与偏置校正,experts包装来自Qwen3-MoE;MoE top-8后乘router_scaling_factor=2.826,并启用fp32 combine处理bf16两路输出相加。
难道是拼好模?并不是!混元3架构解析!
腾讯混元3刚刚发布,给大家带来架构解析。先说结论:基础架构做了适当改进和整合,参数调节下了真功夫。
一个现代大模型基本上就是由这几个大部件拼起来的:attention、解码层、MoE 容器 + routing + experts,以及位置编码。
这几年开源社区把这些零件卷得很成熟了。那腾讯这次是怎么搭的?
Attention: class HYV3Attention(ApertusAttention) — 继承 Apertus,一行没改
解码层:架构照搬 DeepSeek V3 的 DeepseekV3DecoderLayer,内部填充细节不同
MoE 外壳:MiniMax M2 的 MiniMaxM2SparseMoeBlock
Routing:算法(sigmoid 门控 + 偏置校正)类似 DeepSeek V3
Experts 权重:class HYV3Experts(Qwen3MoeExperts) — Qwen3 MOE 包装
拼起来就是:Apertus 的头,DSv3 的身子,M2 的 MoE 外壳,DSv3 的 routing,Qwen3-MoE 的 experts。
难道真的是【拼好模】吗?
#hy3 #hunyuan3 #混元3 #腾讯混元
并不是。如果这么算,Kimi-k2.6 可是完全复用了 DSv3 的文本模型架构,只是加了个视觉。
在我看来,这次的新模型反而是最稳的工程选择。混元3将这些成熟方案组合起来,然后在几个具体配比上下了功夫:
router_scaling_factor = 2.826。MoE routing 选出 top-8 experts,权重归一化后,Hy3 乘了个 2.826,相当于把 MoE 分支整体“声音调大”了 2.8 倍。说明这附近是这一代大 MoE 的甜区。(DSv3-Chat 是 x2.5)
enable_moe_fp32_combine = True。在 bf16 训练里,“routing experts”和“shared experts”两路输出要加到一起。两边数值量级常常会差出 bf16 能分辨的精度范围。Hy3 的做法是这一步加法临时升到 fp32 再加,加完再转回 bf16。算是用一点吞吐换稳定性。
所以结论而言,我觉得这次 hy3-preview 的意义,更多是证明腾讯已经搭建了现代化的训练流程,然后打开流水线,试生产了第一个热机产品:hy3-preview。
期待接下来马力全开的 hy3 正式版。