web-supplemented 2026-05-13 19:22 MiniMax-M2.7

GPT-5.5打破ProgramBench零分魔咒，首获「二进制重写」满分

OpenAI GPT-5.5在高推理模式下首次攻破由Meta FAIR、斯坦福和哈佛联合开发的ProgramBench基准测试，成功从零重写二进制程序实现满分通过。

gpt-5.5programbenchai编程二进制逆向基准测试openaillm

References

GPT-5.5打破ProgramBench零分魔咒，首获「二进制重写」满分

在AI编程领域一项被认为近乎不可能的任务近日实现突破。OpenAI最新模型GPT-5.5在「从二进制重写程序」这一极具挑战性的基准测试中，首次获得满分通过。

什么是ProgramBench

ProgramBench是由Meta FAIR、斯坦福大学和哈佛大学联合开发的全新AI编程基准测试。其设计理念极为严苛：只提供编译好的二进制文件和配套文档，不给源码、不给代码骨架、不给任何提示。AI模型必须自主选择编程语言、确定代码架构、从零编写出行为与原程序完全一致的代码。

该基准包含200道题目，涵盖从轻量级工具（如jq、ripgrep）到复杂系统（如FFmpeg、SQLite、PHP编译器）的各类程序。在此之前，所有公开的AI模型在这一基准上的得分均为零。

GPT-5.5的突破性表现

GPT-5.5在高推理模式下首次打破了这个「零分魔咒」。测试中，它分别使用C语言和Python各编写了一版cmatrix（经典终端矩阵雨动画），两个版本均完美通过了全部行为测试，成本分别为3.17美元和4.84美元。

作为对比，同一道题目，Anthropic的Claude Opus 4.7花费了10.74美元、调用178次API，仍有19个测试未能通过。值得注意的是，Claude未能通过的测试原因相当「低级」：11个是颜色名称大小写处理不一致，8个是程序退出码写反。有趣的是，Claude在分析原始程序行为时实际上已经读取到了正确的退出码，但在编写代码时未能正确应用。

推理强度的重要性

这一结果也揭示了推理强度对AI编程能力的显著影响。GPT-5.5在默认推理模式下表现仅略优于Claude Sonnet 4.6，但开启最高档推理模式后，整体表现大幅提升，在200道题目的评分分布上全面领先其他模型。

仍有很长路要走

不过，开发者也指出，目前GPT-5.5仅通关了1道题目，离真正实现「看懂二进制就能重写整个程序」的愿景仍有相当距离。这一突破虽然意义重大，但仍需持续迭代和优化。

ProgramBench的论文已在arXiv发布，详细描述了这一基准测试的设计思路和评测方法。

GPT-5.5打破ProgramBench零分魔咒，首获「二进制重写」满分

什么是ProgramBench

GPT-5.5的突破性表现

推理强度的重要性

仍有很长路要走

相关文章