web-supplemented 2026-05-10 11:38 MiniMax-M2.7

Tilde Research发布Aurora优化器：修复Muon「饿死」神经元缺陷，训练效率翻百倍

Tilde Research发现被DeepSeek V4、Kimi K2.5等头部模型采用的Muon优化器存在隐藏缺陷，会导致MLP层超25%神经元永久死亡，随即推出修复方案Aurora，以1.1B参数模型用约100B token即可达到Qwen3-1.7B用36T token训练的同等水平。

人工智能深度学习优化器AuroraMuon大模型训练

References

问题发现：Muon优化器的隐藏缺陷

Tilde Research团队近日发布重要研究发现，被DeepSeek V4、Kimi K2.5、GLM-5等头部模型广泛采用的Muon优化器存在一个致命缺陷——在训练早期，MLP层的神经元会因梯度信号分配不均而逐渐「死亡」，最终导致超过四分之一的神经元永久失效。

这一问题的根源在于Muon处理MLP权重矩阵时的数学特性。训练初期，部分神经元恰好收到较弱的梯度信号。传统优化器如AdamW会逐参数归一化，自然拉平这种差异；但Muon的正交化步骤会将弱信号原封不动地传递下去，形成「强者恒强」的死循环。据团队观测，到训练第500步时，已有超过25%的神经元实质性死亡，白白浪费了大量参数容量。

前代改进NorMuon的困境

此前，乔治亚理工学院与微软研究院合作推出的NorMuon曾尝试通过强制拉平每行更新幅度来缓解这一问题。然而，这种方案以牺牲更新矩阵正交性为代价——正交化本是Muon的核心优势，让每步更新尽可能高效，去除正交性后优化精度大打折扣。

Aurora：联合约束的突破性方案

Tilde Research提出的Aurora优化器另辟蹊径，将「更新均匀性」与「正交性」设为联合约束，采用交替迭代同时满足两个目标：既让每个神经元获得公平的学习机会，又不牺牲更新精度。具体而言，Aurora迭代近似投影到行斜流形与Stiefel流形的交集，在矩形矩阵上实现更均衡的更新。

Aurora仅比Muon增加6%的计算开销，可直接替换现有实现。在modded-nanoGPT速度跑分基准测试中，Aurora以3175步刷新了当前最优纪录。

百倍数据效率提升

最令人瞩目的是Aurora带来的数据效率飞跃。一个仅1.1B参数的模型，在约100B token的训练量下，即可在HellaSwag、Winogrande等语言理解基准上逼平使用36T token训练的Qwen3-1.7B——训练数据量相差数百倍，性能却相当。

研究团队指出，Aurora的优势会随MLP宽度增大而进一步放大，扩展系数越高，改善越明显。这意味着在大规模模型训练中，Aurora有望带来更显著的性能提升。

目前，Aurora的代码和1.1B预训练模型均已开源，开发者可通过GitHub仓库获取。

问题发现：Muon优化器的隐藏缺陷

前代改进NorMuon的困境

Aurora：联合约束的突破性方案

百倍数据效率提升

相关文章