X · 研究者一手

@karminski3 难道是拼好模？并不！混元3架构解析：腾讯混元3刚刚推出，先说结论：基础架构适当改进和整合，参数调节下…

@karminski3 难道是拼好模? 并不! 混元3架构解析! 腾讯混元3刚刚发布, 给大家带来架构解析, 先说结论: 基础架构适当改进和整合, 参数调节下…

二〇二六年五月八日 · 英文原文

摘要

腾讯发布混元3架构解析：HYV3Attention继承Apertus，解码层参考DeepSeek V3，MoE外壳采用MiniMax M2，routing使用sigmoid门控与偏置校正，experts包装来自Qwen3-MoE；MoE top-8后乘router_scaling_factor=2.826，并启用fp32 combine处理bf16两路输出相加。

难道是拼好模？并不是！混元3架构解析！

腾讯混元3刚刚发布，给大家带来架构解析。先说结论：基础架构做了适当改进和整合，参数调节下了真功夫。

一个现代大模型基本上就是由这几个大部件拼起来的：attention、解码层、MoE 容器 + routing + experts，以及位置编码。

这几年开源社区把这些零件卷得很成熟了。那腾讯这次是怎么搭的？

Attention: class HYV3Attention(ApertusAttention) — 继承 Apertus，一行没改
解码层：架构照搬 DeepSeek V3 的 DeepseekV3DecoderLayer，内部填充细节不同
MoE 外壳：MiniMax M2 的 MiniMaxM2SparseMoeBlock
Routing：算法（sigmoid 门控 + 偏置校正）类似 DeepSeek V3
Experts 权重：class HYV3Experts(Qwen3MoeExperts) — Qwen3 MOE 包装

拼起来就是：Apertus 的头，DSv3 的身子，M2 的 MoE 外壳，DSv3 的 routing，Qwen3-MoE 的 experts。

难道真的是【拼好模】吗？

#hy3 #hunyuan3 #混元3 #腾讯混元

并不是。如果这么算，Kimi-k2.6 可是完全复用了 DSv3 的文本模型架构，只是加了个视觉。

在我看来，这次的新模型反而是最稳的工程选择。混元3将这些成熟方案组合起来，然后在几个具体配比上下了功夫：

router_scaling_factor = 2.826。MoE routing 选出 top-8 experts，权重归一化后，Hy3 乘了个 2.826，相当于把 MoE 分支整体“声音调大”了 2.8 倍。说明这附近是这一代大 MoE 的甜区。（DSv3-Chat 是 x2.5）

enable_moe_fp32_combine = True。在 bf16 训练里，“routing experts”和“shared experts”两路输出要加到一起。两边数值量级常常会差出 bf16 能分辨的精度范围。Hy3 的做法是这一步加法临时升到 fp32 再加，加完再转回 bf16。算是用一点吞吐换稳定性。

所以结论而言，我觉得这次 hy3-preview 的意义，更多是证明腾讯已经搭建了现代化的训练流程，然后打开流水线，试生产了第一个热机产品：hy3-preview。

期待接下来马力全开的 hy3 正式版。

译自 X · 研究者一手 · 录于二〇二六年五月八日