事件概述
被誉为"AI最难数学基准"的FrontierMath近日遭遇信任危机。Epoch AI于本周一正式确认,在近期的AI辅助审查中,其维护的FrontierMath Tiers 1-4题库中约三分之一的题目被发现存在"致命错误(fatal errors)",包括题目无解、答案错误或条件缺失等问题。团队表示,大多数报错经人工验证后被认定为有效。
基准测试背景
FrontierMath Tiers 1-4是由Epoch AI组织开发的权威数学基准,包含数百道由专家数学家设计并经同行评审的高难度数学问题。其中Tiers 1-3覆盖本科到早期博士后水平,Tier 4则为研究级数学难题。
该基准自发布以来便以"极难"著称——GPT-4o、Claude 3.5 Sonnet、o1-preview等当时最先进的大模型均未能解决超过2%的题目。这一数据曾被广泛引用,用以说明当前AI距离高级数学研究仍有相当距离。
讽刺的转折
此次事故最令人意外的在于审查方式本身:问题并非由传统人工复核发现,而是来自AI辅助审查。随着大模型推理能力的提升,它们已能够反过来为人类专家编写的基准题目"纠错"。这意味着曾被认为"超越AI能力"的FrontierMath,如今反过来被AI找出了漏洞。
对评测体系的影响
这一发现将动摇FrontierMath过去评测分数的解释力。若题目本身存在致命错误,模型无法正确作答并不能直接证明其能力不足——这使得各模型的历史成绩需要重新审视。
然而,Epoch AI尚未公布具体哪些题目将被剔除或修正,也未透露修正后各模型的分数变化幅度。团队表示,将在人工复核完成后重新发布修正版数据集及对应分数,但目前尚无明确时间表。
行业意义
FrontierMath事件为AI评测基准的建立和维护敲响警钟。随着AI能力快速逼近人类专家水平,基准测试本身也需要不断经受严格检验——而此次讽刺性地由AI来完成这项"质检"工作,或将成为人机协作评估的新范式。