nvidia-developer
借助 NVIDIA Megatron 推进新兴优化器以加速 LLM 训练
Advancing Emerging Optimizers for Accelerated LLM Training with NVIDIA Megatron
摘要
高阶优化算法如 Shampoo 已用于 neural network 训练十余年。Muon(MomentUm Orthogonalized by Newton-Schulz)近期被用于训练 open source LLMs,包括 Kimi K2 和 GLM-5。
高阶优化算法(如 Shampoo)至少十年来已被有效应用于 neural network 训练。这些方法在近期应用于领先的 LLMs 时取得了显著成功。具体而言,Muon(MomentUm Orthogonalized by Newton-Schulz)被用于训练当前一些最好的 open source 模型,包括 Kimi K2 和 GLM-5。Source
译自 nvidia-developer · 录于 二〇二六年五月三日