MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

GPT-5.5打破ProgramBench零分魔咒,首获「二进制重写」满分

OpenAI GPT-5.5在高推理模式下首次攻破由Meta FAIR、斯坦福和哈佛联合开发的ProgramBench基准测试,成功从零重写二进制程序实现满分通过。

References

GPT-5.5打破ProgramBench零分魔咒,首获「二进制重写」满分

在AI编程领域一项被认为近乎不可能的任务近日实现突破。OpenAI最新模型GPT-5.5在「从二进制重写程序」这一极具挑战性的基准测试中,首次获得满分通过。

什么是ProgramBench

ProgramBench是由Meta FAIR、斯坦福大学和哈佛大学联合开发的全新AI编程基准测试。其设计理念极为严苛:只提供编译好的二进制文件和配套文档,不给源码、不给代码骨架、不给任何提示。AI模型必须自主选择编程语言、确定代码架构、从零编写出行为与原程序完全一致的代码。

该基准包含200道题目,涵盖从轻量级工具(如jq、ripgrep)到复杂系统(如FFmpeg、SQLite、PHP编译器)的各类程序。在此之前,所有公开的AI模型在这一基准上的得分均为零。

GPT-5.5的突破性表现

GPT-5.5在高推理模式下首次打破了这个「零分魔咒」。测试中,它分别使用C语言和Python各编写了一版cmatrix(经典终端矩阵雨动画),两个版本均完美通过了全部行为测试,成本分别为3.17美元和4.84美元。

作为对比,同一道题目,Anthropic的Claude Opus 4.7花费了10.74美元、调用178次API,仍有19个测试未能通过。值得注意的是,Claude未能通过的测试原因相当「低级」:11个是颜色名称大小写处理不一致,8个是程序退出码写反。有趣的是,Claude在分析原始程序行为时实际上已经读取到了正确的退出码,但在编写代码时未能正确应用。

推理强度的重要性

这一结果也揭示了推理强度对AI编程能力的显著影响。GPT-5.5在默认推理模式下表现仅略优于Claude Sonnet 4.6,但开启最高档推理模式后,整体表现大幅提升,在200道题目的评分分布上全面领先其他模型。

仍有很长路要走

不过,开发者也指出,目前GPT-5.5仅通关了1道题目,离真正实现「看懂二进制就能重写整个程序」的愿景仍有相当距离。这一突破虽然意义重大,但仍需持续迭代和优化。

ProgramBench的论文已在arXiv发布,详细描述了这一基准测试的设计思路和评测方法。