web-supplemented 2026-05-12 18:56 MiniMax-M2.7

英伟达与MIT联合发布Lightning OPD：大模型蒸馏效率提升4倍，显存问题获解

英伟达研究院与MIT合作推出Lightning OPD离线策略蒸馏框架，通过预先计算教师模型对数概率，将大模型蒸馏训练效率提升4倍，同时彻底解决大模型训练中的显存溢出难题。

英伟达MIT大模型蒸馏Lightning OPDAI训练MoE模型Qwen3

References

Lightning OPD训练框架示意 — Lightning OPD通过离线计算教师对数概率，将全部GPU资源用于学生模型训练 Image source

英伟达研究院与麻省理工学院（MIT）联合发布了一项重大AI训练技术突破——Lightning OPD（Offline Policy Distillation，离线同策略蒸馏）框架。该技术通过创新的离线计算方式，将大语言模型蒸馏训练效率提升至传统方法的4倍，同时彻底消除了长期困扰业界的显存溢出（OOM）问题。

传统蒸馏的显存瓶颈

此前，标准的同策略蒸馏（OPD）要求在同一台机器上同时运行学生模型和教师模型。当模型规模增大时，两套模型同时加载的需求极易导致显存溢出，这在实际应用中成为制约大模型训练的严重瓶颈。

Lightning OPD的突破性方案

Lightning OPD的核心创新在于预先离线计算教师模型的对数概率（log-probabilities），将所有GPU算力全部释放给学生模型。实验数据显示，在单节点8张H100显卡的配置下，Lightning OPD成功完成了对Qwen3-30B-A3B-Base（总参数300亿的大型MoE模型）的蒸馏训练，在AIME 2024数学竞赛测试中获得71.0分；而传统标准OPD在相同硬件配置下直接报出显存溢出错误。

在更小规模的Qwen3-8B模型测试中，该框架仅耗时30个GPU小时即达到69.9分的优异成绩，展现出极高的训练效率。

被忽视的"教师一致性"原则

研究团队在论文中特别指出，实现高效离线蒸馏的关键在于一个长期被忽视的前置条件——"教师一致性"。这意味着学生模型在监督微调（SFT）和后续蒸馏阶段必须使用同一个教师模型。如果违反这一原则，梯度优化方向将出现偏差，最终严重影响模型性能表现。

这项发现为整个AI训练领域提供了新的优化思路，有望重塑未来大模型后训练的实践标准。

传统蒸馏的显存瓶颈

Lightning OPD的突破性方案

被忽视的"教师一致性"原则

相关文章