web-supplemented 2026-05-17 16:00 MiniMax-M2.7

30B参数开源模型不靠外部工具，靠超长推理链斩获IMO金牌线

上海人工智能实验室联合多所高校开源奥赛推理模型SU-01，仅凭内部生成-验证-修改循环与充足的测试时算力扩展，在IMO 2025评测中达到35分金牌线，证明小模型也能靠长思维链挑战顶级数学难题。

人工智能数学推理开源模型IMO测试时扩展强化学习

References

上海AI实验室开源奥赛推理模型SU-01：30B参数单题输出超10万Token，IMO金牌线触手可及

长期以来，AI模型攻克国际数学奥林匹克（IMO）级别的难题，往往依赖外部代码执行器、定理证明器或符号求解器等辅助工具。但上海人工智能实验室联合清华大学、北京大学、上海交通大学与香港中文大学共同开源的奥赛推理模型 SU-01，颠覆了这一范式——它完全依靠内部的长思维链，在 IMO 2025 官方题评测中斩获 35 分，恰好达到当年金牌分数线。

不靠工具靠「长考」：30B模型也能解顶级数学题

SU-01 基于 P1-30B-A3B 架构开发，核心机制是在推理过程中不断进行「生成→验证→修改」的循环。模型作答时不调用任何外部代码执行器、定理证明器或符号求解器，纯靠自身算力反复推敲，最终在 IMO 2025 赛题上取得金牌成绩。

值得注意的是，若不启用测试时算力扩展（Test-Time Scaling，TTS），SU-01 的得分仅为 21 分。其金牌成绩几乎全部来自高 Token 预算下的多轮深度搜索与自我修正。

训练三阶段：逆向课程、强化学习与反复修正

SU-01 的训练分为三个关键阶段：

逆困惑度课程训练（SFT）：研究团队按困惑度降序向模型喂送训练样本，强迫模型优先学习最难模仿的高阶推理轨迹，建立起处理复杂证明的基础能力。
强化学习稳固（RL）：通过强化学习进一步强化模型「找到正确答案」的能力，使其在面对开放性数学问题时能有效探索解题路径。
反复自我修正：要求模型在输出初稿后主动寻找漏洞并重新生成，逐步补全严密完整的数学证明。

超高Token消耗：单题输出中位数超10万

这一机制在推理时消耗的算力相当惊人。根据 SU-01 在 2026 年美国数学奥林匹克（USAMO）上的测试轨迹记录：

面对难题，模型写第一版答案的中位 Token 数为 10.6 万。
仅做一次修改，中位数又要额外消耗 8.3 万 Token。

这种超长的思维链输出，使得模型能够「反复推敲」、深入挖掘解题思路，而非依赖外部工具快速求解。

意义：小参数模型也能挑战顶级难题

SU-01 的核心价值在于证明：30B 参数级别的模型，只要给予充足的测试时算力扩展和内部推理迭代，也能达到顶级数学奥林匹克竞赛的金牌水平。这一成果为「小模型+长思维链」的路径提供了强有力的实证，或将推动更多研究探索不依赖外部工具的纯推理方案。

目前，SU-01 的技术报告已发布于 arXiv，代码与模型权重已开源。

上海AI实验室开源奥赛推理模型SU-01：30B参数单题输出超10万Token，IMO金牌线触手可及

不靠工具靠「长考」：30B模型也能解顶级数学题

训练三阶段：逆向课程、强化学习与反复修正

超高Token消耗：单题输出中位数超10万

意义：小参数模型也能挑战顶级难题

相关文章