MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

CUSP评测揭示大模型科研预测短板:理解已知但无法预见未来

斯坦福、牛津与艾伦人工智能研究所联合发布的CUSP基准测试显示,GPT-4.5、Claude Sonnet 4.5等前沿大模型在机制推理上表现优异,但在预测科学发现可行性及突破时间上准确率接近随机猜测,暴露了现有AI系统缺乏前瞻科研视野的核心局限。

References

研究背景:AI能否像科学家一样预判未来?

斯坦福大学人工智能研究所(Stanford HAI)、牛津大学与艾伦人工智能研究所(AI2)联合发布了名为**CUSP(Cutoff-conditioned Unseen Scientific Progress)**的时序基准,首次系统性评估了主流大模型的科学进展预测能力。该研究的核心理念是:真正的科学预见,需要在未知中探索,而非复述已知。

CUSP的设计:如何堵住AI的「作弊」漏洞?

传统AI评测存在严重的信息泄露问题——模型可能仅凭训练数据中的已有论文来「背诵」答案,无法区分真正的推理能力与记忆复现。为解决这一根本性缺陷,CUSP引入了严格的知识截止(cutoff)限制,确保模型只能基于截止时点的历史信息进行预测,无法接触未来的研究成果。

评测数据集涵盖了来自Nature、Science等顶级期刊的多学科前沿进展,包含4,760个科学里程碑事件,衍生出17,429个具体评估任务,涵盖四大核心维度:

  • 可行性判定(Feasibility Assessment):评估某项科学断言能否最终实现
  • 机制推理(Mechanistic Reasoning):理解技术路径与因果关系
  • 生成式解决方案设计(Generative Solution Design):构思技术路线
  • 时间预测(Temporal Prediction):预估突破发生的时间节点

核心发现:大模型「理解过去」强,「预见未来」弱

机制推理:大模型的强项

在识别合理研究方向等机制推理任务中,大模型展现出接近人类专家的表现。GPT-4.5取得81.9%的准确率,证明其在消化现有技术路径、分析已知因果关系方面具有相当强的能力。

可行性判定:接近随机猜测的尴尬

然而,当要求模型判断某项断言能否真正实现时,各模型精度仅为45%至52%——几乎等同于随机猜测。这表明大模型能够理解「已知的技术路径」,却无法可靠地判断「未知的科学可行性」。

时间预测:系统性滞后且普遍高估

模型 预测滞后时间
GPT-4.5 滞后14个月
Claude Sonnet 4.5 滞后17个月
GPT-4o 滞后达26个月
LLaMA 3.3 +4个月(较优)

大模型普遍倾向于高估突破所需时间,尤其在开创性高影响力突破的预测上缺口更为显著。这可能与模型对技术难度的保守估计有关。

生成式解决方案:方案完善但路径错位

即使GPT-4.5在生成式解决方案设计中获得最高分(5.04/10),其生成的技术路线也无法与真实发生的科学发展路径对齐。换言之,模型能够写出「看起来合理」的方案,却很难命中实际会发生的技术方向。

意义与启示

CUSP评测揭示了一个关键事实:当前前沿大模型在科学发现预测这一维度上,仍无法提供可靠的前瞻判断。模型擅长的是基于已有知识的推理与整合,而非真正的科学想象力。

这一发现对当前AI领域的多个方向具有重要启示:

  1. 科研辅助��具定位:大模型可作为文献综述与思路激发的辅助,但在独立科研方向判断上仍需人类专家把关
  2. 评测范式转向:业界需更多引入时序限制的「前瞻性」评测指标,而非仅关注历史知识问答准确率
  3. 科学研究范式:AI加速科学发现的前景广阔,但真正实现「AI科学家」仍需突破预测能力的根本瓶颈

CUSP论文已在arXiv发布,相关代码与数据集已在GitHub开源,为后续研究提供了可复现的评测基础。


信源:Forecasting Scientific Progress with Artificial Intelligence (arXiv:2605.22681)