MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Tilde Research发布Aurora优化器:修复Muon「饿死」神经元缺陷,训练效率翻百倍

Tilde Research发现被DeepSeek V4、Kimi K2.5等头部模型采用的Muon优化器存在隐藏缺陷,会导致MLP层超25%神经元永久死亡,随即推出修复方案Aurora,以1.1B参数模型用约100B token即可达到Qwen3-1.7B用36T token训练的同等水平。

References

问题发现:Muon优化器的隐藏缺陷

Tilde Research团队近日发布重要研究发现,被DeepSeek V4、Kimi K2.5、GLM-5等头部模型广泛采用的Muon优化器存在一个致命缺陷——在训练早期,MLP层的神经元会因梯度信号分配不均而逐渐「死亡」,最终导致超过四分之一的神经元永久失效。

这一问题的根源在于Muon处理MLP权重矩阵时的数学特性。训练初期,部分神经元恰好收到较弱的梯度信号。传统优化器如AdamW会逐参数归一化,自然拉平这种差异;但Muon的正交化步骤会将弱信号原封不动地传递下去,形成「强者恒强」的死循环。据团队观测,到训练第500步时,已有超过25%的神经元实质性死亡,白白浪费了大量参数容量。

前代改进NorMuon的困境

此前,乔治亚理工学院与微软研究院合作推出的NorMuon曾尝试通过强制拉平每行更新幅度来缓解这一问题。然而,这种方案以牺牲更新矩阵正交性为代价——正交化本是Muon的核心优势,让每步更新尽可能高效,去除正交性后优化精度大打折扣。

Aurora:联合约束的突破性方案

Tilde Research提出的Aurora优化器另辟蹊径,将「更新均匀性」与「正交性」设为联合约束,采用交替迭代同时满足两个目标:既让每个神经元获得公平的学习机会,又不牺牲更新精度。具体而言,Aurora迭代近似投影到行斜流形与Stiefel流形的交集,在矩形矩阵上实现更均衡的更新。

Aurora仅比Muon增加6%的计算开销,可直接替换现有实现。在modded-nanoGPT速度跑分基准测试中,Aurora以3175步刷新了当前最优纪录。

百倍数据效率提升

最令人瞩目的是Aurora带来的数据效率飞跃。一个仅1.1B参数的模型,在约100B token的训练量下,即可在HellaSwag、Winogrande等语言理解基准上逼平使用36T token训练的Qwen3-1.7B——训练数据量相差数百倍,性能却相当。

研究团队指出,Aurora的优势会随MLP宽度增大而进一步放大,扩展系数越高,改善越明显。这意味着在大规模模型训练中,Aurora有望带来更显著的性能提升。

目前,Aurora的代码和1.1B预训练模型均已开源,开发者可通过GitHub仓库获取。