上海AI实验室开源奥赛推理模型SU-01:30B参数单题输出超10万Token,IMO金牌线触手可及
长期以来,AI模型攻克国际数学奥林匹克(IMO)级别的难题,往往依赖外部代码执行器、定理证明器或符号求解器等辅助工具。但上海人工智能实验室联合清华大学、北京大学、上海交通大学与香港中文大学共同开源的奥赛推理模型 SU-01,颠覆了这一范式——它完全依靠内部的长思维链,在 IMO 2025 官方题评测中斩获 35 分,恰好达到当年金牌分数线。
不靠工具靠「长考」:30B模型也能解顶级数学题
SU-01 基于 P1-30B-A3B 架构开发,核心机制是在推理过程中不断进行「生成→验证→修改」的循环。模型作答时不调用任何外部代码执行器、定理证明器或符号求解器,纯靠自身算力反复推敲,最终在 IMO 2025 赛题上取得金牌成绩。
值得注意的是,若不启用测试时算力扩展(Test-Time Scaling,TTS),SU-01 的得分仅为 21 分。其金牌成绩几乎全部来自高 Token 预算下的多轮深度搜索与自我修正。
训练三阶段:逆向课程、强化学习与反复修正
SU-01 的训练分为三个关键阶段:
- 逆困惑度课程训练(SFT):研究团队按困惑度降序向模型喂送训练样本,强迫模型优先学习最难模仿的高阶推理轨迹,建立起处理复杂证明的基础能力。
- 强化学习稳固(RL):通过强化学习进一步强化模型「找到正确答案」的能力,使其在面对开放性数学问题时能有效探索解题路径。
- 反复自我修正:要求模型在输出初稿后主动寻找漏洞并重新生成,逐步补全严密完整的数学证明。
超高Token消耗:单题输出中位数超10万
这一机制在推理时消耗的算力相当惊人。根据 SU-01 在 2026 年美国数学奥林匹克(USAMO)上的测试轨迹记录:
- 面对难题,模型写第一版答案的中位 Token 数为 10.6 万。
- 仅做一次修改,中位数又要额外消耗 8.3 万 Token。
这种超长的思维链输出,使得模型能够「反复推敲」、深入挖掘解题思路,而非依赖外部工具快速求解。
意义:小参数模型也能挑战顶级难题
SU-01 的核心价值在于证明:30B 参数级别的模型,只要给予充足的测试时算力扩展和内部推理迭代,也能达到顶级数学奥林匹克竞赛的金牌水平。这一成果为「小模型+长思维链」的路径提供了强有力的实证,或将推动更多研究探索不依赖外部工具的纯推理方案。
目前,SU-01 的技术报告已发布于 arXiv,代码与模型权重已开源。