MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

AI数学基准FrontierMath被曝近三分之一题目存在致命错误

Epoch AI确认其维护的FrontierMath高难数学基准存在大面积题库事故,约三分之一题目含致命错误,可能动摇过去AI模型评测分数的可信度。

References

FrontierMath基准测试Banner
FrontierMath是Epoch AI开发的高级数学推理评测基准 Image source

事件概述

被誉为"AI最难数学基准"的FrontierMath近日遭遇信任危机。Epoch AI于本周一正式确认,在近期的AI辅助审查中,其维护的FrontierMath Tiers 1-4题库中约三分之一的题目被发现存在"致命错误(fatal errors)",包括题目无解、答案错误或条件缺失等问题。团队表示,大多数报错经人工验证后被认定为有效。

基准测试背景

FrontierMath Tiers 1-4是由Epoch AI组织开发的权威数学基准,包含数百道由专家数学家设计并经同行评审的高难度数学问题。其中Tiers 1-3覆盖本科到早期博士后水平,Tier 4则为研究级数学难题。

该基准自发布以来便以"极难"著称——GPT-4o、Claude 3.5 Sonnet、o1-preview等当时最先进的大模型均未能解决超过2%的题目。这一数据曾被广泛引用,用以说明当前AI距离高级数学研究仍有相当距离。

讽刺的转折

此次事故最令人意外的在于审查方式本身:问题并非由传统人工复核发现,而是来自AI辅助审查。随着大模型推理能力的提升,它们已能够反过来为人类专家编写的基准题目"纠错"。这意味着曾被认为"超越AI能力"的FrontierMath,如今反过来被AI找出了漏洞。

对评测体系的影响

这一发现将动摇FrontierMath过去评测分数的解释力。若题目本身存在致命错误,模型无法正确作答并不能直接证明其能力不足——这使得各模型的历史成绩需要重新审视。

然而,Epoch AI尚未公布具体哪些题目将被剔除或修正,也未透露修正后各模型的分数变化幅度。团队表示,将在人工复核完成后重新发布修正版数据集及对应分数,但目前尚无明确时间表。

行业意义

FrontierMath事件为AI评测基准的建立和维护敲响警钟。随着AI能力快速逼近人类专家水平,基准测试本身也需要不断经受严格检验——而此次讽刺性地由AI来完成这项"质检"工作,或将成为人机协作评估的新范式。