GPT-5.5打破ProgramBench零分魔咒,首获「二进制重写」满分
在AI编程领域一项被认为近乎不可能的任务近日实现突破。OpenAI最新模型GPT-5.5在「从二进制重写程序」这一极具挑战性的基准测试中,首次获得满分通过。
什么是ProgramBench
ProgramBench是由Meta FAIR、斯坦福大学和哈佛大学联合开发的全新AI编程基准测试。其设计理念极为严苛:只提供编译好的二进制文件和配套文档,不给源码、不给代码骨架、不给任何提示。AI模型必须自主选择编程语言、确定代码架构、从零编写出行为与原程序完全一致的代码。
该基准包含200道题目,涵盖从轻量级工具(如jq、ripgrep)到复杂系统(如FFmpeg、SQLite、PHP编译器)的各类程序。在此之前,所有公开的AI模型在这一基准上的得分均为零。
GPT-5.5的突破性表现
GPT-5.5在高推理模式下首次打破了这个「零分魔咒」。测试中,它分别使用C语言和Python各编写了一版cmatrix(经典终端矩阵雨动画),两个版本均完美通过了全部行为测试,成本分别为3.17美元和4.84美元。
作为对比,同一道题目,Anthropic的Claude Opus 4.7花费了10.74美元、调用178次API,仍有19个测试未能通过。值得注意的是,Claude未能通过的测试原因相当「低级」:11个是颜色名称大小写处理不一致,8个是程序退出码写反。有趣的是,Claude在分析原始程序行为时实际上已经读取到了正确的退出码,但在编写代码时未能正确应用。
推理强度的重要性
这一结果也揭示了推理强度对AI编程能力的显著影响。GPT-5.5在默认推理模式下表现仅略优于Claude Sonnet 4.6,但开启最高档推理模式后,整体表现大幅提升,在200道题目的评分分布上全面领先其他模型。
仍有很长路要走
不过,开发者也指出,目前GPT-5.5仅通关了1道题目,离真正实现「看懂二进制就能重写整个程序」的愿景仍有相当距离。这一突破虽然意义重大,但仍需持续迭代和优化。
ProgramBench的论文已在arXiv发布,详细描述了这一基准测试的设计思路和评测方法。