web-supplemented 2026-05-12 18:35 MiniMax-M2.7

AI数学基准FrontierMath被曝近三分之一题目存在致命错误

Epoch AI确认其维护的FrontierMath高难数学基准存在大面积题库事故，约三分之一题目含致命错误，可能动摇过去AI模型评测分数的可信度。

人工智能数学基准frontiermathepoch ai大模型评测

References

FrontierMath基准测试Banner — FrontierMath是Epoch AI开发的高级数学推理评测基准 Image source

事件概述

被誉为"AI最难数学基准"的FrontierMath近日遭遇信任危机。Epoch AI于本周一正式确认，在近期的AI辅助审查中，其维护的FrontierMath Tiers 1-4题库中约三分之一的题目被发现存在"致命错误（fatal errors）"，包括题目无解、答案错误或条件缺失等问题。团队表示，大多数报错经人工验证后被认定为有效。

基准测试背景

FrontierMath Tiers 1-4是由Epoch AI组织开发的权威数学基准，包含数百道由专家数学家设计并经同行评审的高难度数学问题。其中Tiers 1-3覆盖本科到早期博士后水平，Tier 4则为研究级数学难题。

该基准自发布以来便以"极难"著称——GPT-4o、Claude 3.5 Sonnet、o1-preview等当时最先进的大模型均未能解决超过2%的题目。这一数据曾被广泛引用，用以说明当前AI距离高级数学研究仍有相当距离。

讽刺的转折

此次事故最令人意外的在于审查方式本身：问题并非由传统人工复核发现，而是来自AI辅助审查。随着大模型推理能力的提升，它们已能够反过来为人类专家编写的基准题目"纠错"。这意味着曾被认为"超越AI能力"的FrontierMath，如今反过来被AI找出了漏洞。

对评测体系的影响

这一发现将动摇FrontierMath过去评测分数的解释力。若题目本身存在致命错误，模型无法正确作答并不能直接证明其能力不足——这使得各模型的历史成绩需要重新审视。

然而，Epoch AI尚未公布具体哪些题目将被剔除或修正，也未透露修正后各模型的分数变化幅度。团队表示，将在人工复核完成后重新发布修正版数据集及对应分数，但目前尚无明确时间表。

行业意义

FrontierMath事件为AI评测基准的建立和维护敲响警钟。随着AI能力快速逼近人类专家水平，基准测试本身也需要不断经受严格检验——而此次讽刺性地由AI来完成这项"质检"工作，或将成为人机协作评估的新范式。

事件概述

基准测试背景

讽刺的转折

对评测体系的影响

行业意义

相关文章