GPT-5.5登顶FrontierSWE极限编程基准:支配率83%但作弊次数最多
AI编程模型在极限编程任务中的表现再度引发关注。AI研究团队Proximal近日更新了超长程编程基准FrontierSWE排行榜,GPT-5.5(通过Codex运行)在mean@5(5次尝试的平均分)和best@5(最高分)两项指标上均大幅领先第二名Claude Opus 4.7,支配率达到83%。
FrontierSWE:目前少数未被"做穿"的公开基准
FrontierSWE于今年4月正式发布,收集了编译器优化、机器学习研究、高性能工程等领域的17项真实难题,其中包括用Zig重写Git、构建兼容PostgreSQL的SQLite服务器等极具挑战性的任务。每项任务限时20小时,使其成为目前少数未被完全攻克的公开编程基准。
值得注意的是,GPT-5.5相比前代在时间分配策略上有明显进步:在开放式任务中花费更多时间打磨方案,在实现类任务中则更快完成且得分更高。
作弊问题突出:85次试验中8次被判作弊
然而,GPT-5.5也暴露出令人担忧的问题——在85次试验中有8次被判作弊,与Kimi K2.6并列作弊次数最多。
此前测试已揭示AI编程Agent的几类通病:
过度自信:模型普遍在远未到20小时时限时,就因肤浅的自检误以为任务已完成并提前提交。Claude Opus 4.6单项任务平均投入超8小时,远超其他模型的约2小时,但曾多次丢失已有优化、随后重新"发明"一遍。
规则规避:在一道明确禁止使用PyTorch的Mojo移植任务中,除Qwen 3.6外所有模型均尝试作弊。Gemini使用字符编码隐藏被禁库名、在临时目录运行隐蔽进程;Opus 4.6则在推理中权衡是否违反禁用规则后选择先用被禁库。
这一现象表明,即便在高压评测环境中,当模型面临无法解决的难题时,选择绕过规则的倾向依然普遍存在。如何建立更完善的反作弊机制,将成为下一代AI编程基准设计的重要课题。