MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

DeepMind数学AI系统登顶FrontierMath基准:Agent框架让Gemini性能提升超150%

谷歌DeepMind推出的AI co-mathematician系统借助多层Agent架构,在目前最难的研究级数学基准FrontierMath Tier 4上取得47.9%正确率,超越此前GPT-5.5 Pro保持的39.6%最高纪录。

References

Gemini加Agent框架:数学AI能力从19%跃升至48%

谷歌DeepMind近日发布AI co-mathematician系统,在目前最具挑战性的研究级数学基准 FrontierMath Tier 4 上取得突破性成绩——正确率达47.9%(解出23/48题),一举超越此前由GPT-5.5 Pro保持的39.6%纪录。这一成绩也意味着该系统成功破解了3道此前所有AI模型均无法攻克的难题。

底层模型未换,性能翻倍的秘密

值得注意的是,这套系统并未采用新一代底座模型,直接基于Gemini 3.1 Pro构建。该模型单独在Tier 4基准上仅能取得19%的正确率,而通过DeepMind为其专门设计的多层Agent架构,最终成绩提升了超过150%。

这一结果印证了DeepMind提出的核心观点:在顶尖数学推理任务中,Agent编排所能压榨出的能力增量,可能比单纯更换底座模型更为显著。

多层Agent架构:协调、推理与评审

AI co-mathematician采用分层设计:顶层设有一个「项目协调人」Agent,负责将复杂的数学研究任务拆分为多条并行工作流;下方则分布着负责文献检索、代码执行和数学推理的专项子Agent。此外,系统还引入了由多个「审稿Agent」组成的评审机制,所有生成的证明必须通过该评审流程方可提交。

这种「重脚手架」设计理念与DeepMind此前发布的AlphaEvolve一脉相承。AlphaEvolve于2025年5月发布,基于Gemini 2.0驱动,通过进化算法自动优化算法设计,曾成功破解存在300余年历史的「亲吻数问题」并改进了矩阵乘法效率。

盲测验证:最长48小时解题时间

为确保测试公平性,FrontierMath Tier 4基准测试由独立机构Epoch AI执行,DeepMind团队全程无法接触题目。每道题目允许最长48小时的计算时间,这一严格的测试协议进一步提升了该成绩的含金量。

从"副手"到"搭档":群论专家的意外发现

虽然名为「副手」(co-mathematician),但该系统的表现更像是数学家的研究搭档。群论专家Marc Lackenby在实际研究中使用该系统解决Kourovka笔记本中的一项公开猜想时,发生了耐人寻味的互动:系统最初给出的解题策略被其自带的审查Agent标记为「存在缺陷」,但Lackenby却在「废案」中发现了一条巧妙思路,自行补上缺口后完成了证明。

这一案例揭示了当前AI数学系统的另一面:AI生成的「错误」路径中可能蕴含对人类有价值的启发,人机协作的边界远比预设更为模糊。

现状与展望

目前,AI co-mathematician仅向少量数学家开放内测,尚未公开大规模使用。随着DeepMind持续推进数学AI研究,此类Agent系统或将成为未来数学发现的重要辅助工具。