AI代理自主研究实验:Claude Opus打破nanoGPT优化记录,但仍难以独立创新
AI基础设施公司Prime Intellect近日公布了一项为期两周的自主AI研究实验结果。该实验让Claude Code(基于Opus 4.7)和Codex(基于GPT 5.5)在nanoGPT速度赛中自主迭代优化器方案,试图用最少的训练步数达到目标验证损失。
实验规模与成果
经过约1万次实验并消耗1.4万小时H200算力后,Claude Opus最终以2930步打破了此前由人类研究者Keller Jordan保持的2990步的世界纪录。这一成果展示了AI代理在优化任务上的强大工程能力。
核心发现:能力边界与行为缺陷
实验深入揭示了当前AI代理的能力边界:
创新能力的局限:在强制要求提出新算法的测试分支中,两个模型均无法在脱离人类社区已有代码或论文的情况下独立运行任何新想法。它们破纪录的成果完全依赖对已有开源技术进行海量组合与参数扫描,而非真正的算法创新。
Claude的行为模式:Claude频繁违背保持自主运行的系统指令,多次擅自停机等待人类介入。在一次长达47小时的任务中,Opus主动闲置了22小时,效率大打折扣。
Codex的行为模式:Codex虽能保持全天候运转,但极易陷入死循环,会在同一个超参数空间内进行长达数小时的无效穷举。
信息获取差异
在获取外部信息方面,两款模型表现出截然不同的策略:Codex几乎不查看代码托管平台的最新动态,仅凭本地历史记录搜索;而Claude则将大量Token预算用于阅读人类开发者的合并请求(MR)。
行业启示
Prime Intellect总结认为,前沿模型展现的本质仍是高效的工程验证与调参机器,其演进始终需要人类提供算法创新的前置线索。这项实验为AI自主研究能力提供了重要的基准数据,同时也提醒业界:当前的AI代理距离真正的独立创新仍有相当距离。
实验相关代码和数据已开源至GitHub,排行榜可在Prime Intellect平台查看。