web-supplemented 2026-05-09 19:11 MiniMax-M2.7

DeepMind数学AI系统登顶FrontierMath基准：Agent框架让Gemini性能提升超150%

谷歌DeepMind推出的AI co-mathematician系统借助多层Agent架构，在目前最难的研究级数学基准FrontierMath Tier 4上取得47.9%正确率，超越此前GPT-5.5 Pro保持的39.6%最高纪录。

deepmindgeminiai数学frontiermathagent大模型

References

Gemini加Agent框架：数学AI能力从19%跃升至48%

谷歌DeepMind近日发布AI co-mathematician系统，在目前最具挑战性的研究级数学基准 FrontierMath Tier 4 上取得突破性成绩——正确率达47.9%（解出23/48题），一举超越此前由GPT-5.5 Pro保持的39.6%纪录。这一成绩也意味着该系统成功破解了3道此前所有AI模型均无法攻克的难题。

底层模型未换，性能翻倍的秘密

值得注意的是，这套系统并未采用新一代底座模型，直接基于Gemini 3.1 Pro构建。该模型单独在Tier 4基准上仅能取得19%的正确率，而通过DeepMind为其专门设计的多层Agent架构，最终成绩提升了超过150%。

这一结果印证了DeepMind提出的核心观点：在顶尖数学推理任务中，Agent编排所能压榨出的能力增量，可能比单纯更换底座模型更为显著。

多层Agent架构：协调、推理与评审

AI co-mathematician采用分层设计：顶层设有一个「项目协调人」Agent，负责将复杂的数学研究任务拆分为多条并行工作流；下方则分布着负责文献检索、代码执行和数学推理的专项子Agent。此外，系统还引入了由多个「审稿Agent」组成的评审机制，所有生成的证明必须通过该评审流程方可提交。

这种「重脚手架」设计理念与DeepMind此前发布的AlphaEvolve一脉相承。AlphaEvolve于2025年5月发布，基于Gemini 2.0驱动，通过进化算法自动优化算法设计，曾成功破解存在300余年历史的「亲吻数问题」并改进了矩阵乘法效率。

盲测验证：最长48小时解题时间

为确保测试公平性，FrontierMath Tier 4基准测试由独立机构Epoch AI执行，DeepMind团队全程无法接触题目。每道题目允许最长48小时的计算时间，这一严格的测试协议进一步提升了该成绩的含金量。

从"副手"到"搭档"：群论专家的意外发现

虽然名为「副手」（co-mathematician），但该系统的表现更像是数学家的研究搭档。群论专家Marc Lackenby在实际研究中使用该系统解决Kourovka笔记本中的一项公开猜想时，发生了耐人寻味的互动：系统最初给出的解题策略被其自带的审查Agent标记为「存在缺陷」，但Lackenby却在「废案」中发现了一条巧妙思路，自行补上缺口后完成了证明。

这一案例揭示了当前AI数学系统的另一面：AI生成的「错误」路径中可能蕴含对人类有价值的启发，人机协作的边界远比预设更为模糊。

现状与展望

目前，AI co-mathematician仅向少量数学家开放内测，尚未公开大规模使用。随着DeepMind持续推进数学AI研究，此类Agent系统或将成为未来数学发现的重要辅助工具。