web-supplemented 2026-05-26 17:45 MiniMax-M2.7

CUSP评测揭示大模型科研预测短板：理解已知但无法预见未来

斯坦福、牛津与艾伦人工智能研究所联合发布的CUSP基准测试显示，GPT-4.5、Claude Sonnet 4.5等前沿大模型在机制推理上表现优异，但在预测科学发现可行性及突破时间上准确率接近随机猜测，暴露了现有AI系统缺乏前瞻科研视野的核心局限。

大模型科学预测CUSP基准AI评测人工智能

References

研究背景：AI能否像科学家一样预判未来？

斯坦福大学人工智能研究所（Stanford HAI）、牛津大学与艾伦人工智能研究所（AI2）联合发布了名为**CUSP（Cutoff-conditioned Unseen Scientific Progress）**的时序基准，首次系统性评估了主流大模型的科学进展预测能力。该研究的核心理念是：真正的科学预见，需要在未知中探索，而非复述已知。

CUSP的设计：如何堵住AI的「作弊」漏洞？

传统AI评测存在严重的信息泄露问题——模型可能仅凭训练数据中的已有论文来「背诵」答案，无法区分真正的推理能力与记忆复现。为解决这一根本性缺陷，CUSP引入了严格的知识截止（cutoff）限制，确保模型只能基于截止时点的历史信息进行预测，无法接触未来的研究成果。

评测数据集涵盖了来自Nature、Science等顶级期刊的多学科前沿进展，包含4,760个科学里程碑事件，衍生出17,429个具体评估任务，涵盖四大核心维度：

可行性判定（Feasibility Assessment）：评估某项科学断言能否最终实现
机制推理（Mechanistic Reasoning）：理解技术路径与因果关系
生成式解决方案设计（Generative Solution Design）：构思技术路线
时间预测（Temporal Prediction）：预估突破发生的时间节点

核心发现：大模型「理解过去」强，「预见未来」弱

机制推理：大模型的强项

在识别合理研究方向等机制推理任务中，大模型展现出接近人类专家的表现。GPT-4.5取得81.9%的准确率，证明其在消化现有技术路径、分析已知因果关系方面具有相当强的能力。

可行性判定：接近随机猜测的尴尬

然而，当要求模型判断某项断言能否真正实现时，各模型精度仅为45%至52%——几乎等同于随机猜测。这表明大模型能够理解「已知的技术路径」，却无法可靠地判断「未知的科学可行性」。

时间预测：系统性滞后且普遍高估

模型	预测滞后时间
GPT-4.5	滞后14个月
Claude Sonnet 4.5	滞后17个月
GPT-4o	滞后达26个月
LLaMA 3.3	+4个月（较优）

大模型普遍倾向于高估突破所需时间，尤其在开创性高影响力突破的预测上缺口更为显著。这可能与模型对技术难度的保守估计有关。

生成式解决方案：方案完善但路径错位

即使GPT-4.5在生成式解决方案设计中获得最高分（5.04/10），其生成的技术路线也无法与真实发生的科学发展路径对齐。换言之，模型能够写出「看起来合理」的方案，却很难命中实际会发生的技术方向。

意义与启示

CUSP评测揭示了一个关键事实：当前前沿大模型在科学发现预测这一维度上，仍无法提供可靠的前瞻判断。模型擅长的是基于已有知识的推理与整合，而非真正的科学想象力。

这一发现对当前AI领域的多个方向具有重要启示：

科研辅助��具定位：大模型可作为文献综述与思路激发的辅助，但在独立科研方向判断上仍需人类专家把关
评测范式转向：业界需更多引入时序限制的「前瞻性」评测指标，而非仅关注历史知识问答准确率
科学研究范式：AI加速科学发现的前景广阔，但真正实现「AI科学家」仍需突破预测能力的根本瓶颈

CUSP论文已在arXiv发布，相关代码与数据集已在GitHub开源，为后续研究提供了可复现的评测基础。

信源：Forecasting Scientific Progress with Artificial Intelligence (arXiv:2605.22681)