web-supplemented 2026-05-06 16:28 MiniMax-M2.7

ProgramBench发布：九大AI模型在逆向编译任务中全部“挂零”

Meta AI联合斯坦福、哈佛推出的全新编程基准ProgramBench显示，当前最先进的AI模型在仅凭二进制文件和文档从零重建软件的任务中完全通过率均为0%。

programbenchai基准meta编程测试SWE-bench

References

Meta AI联合学术界发布ProgramBench基准，主流AI模型全军覆没

由Meta AI研究团队联合斯坦福大学、哈佛大学共同发布的全新编程基准测试ProgramBench今日公布评测结果。该基准由SWE-bench原班人马John Yang和Kilian Lieret主导开发，旨在测试AI模型在软件逆向工程领域的能力极限。

与传统的编程基准不同，ProgramBench要求AI智能体仅凭一个编译好的二进制文件和使用文档，从零开始架构并实现一套完整代码库，以完全复现原程序的行为。测试规则严格禁止查看源代码、反编译或访问网络，智能体需自主决定编程语言和系统架构。

基准测试涵盖200个任务，范围从小型CLI工具（如jq、ripgrep）延伸至大型项目（FFmpeg、SQLite、PHP解释器）。为确保评测的严谨性，研究团队通过智能体驱动的模糊测试自动生成了超过24.8万条行为测试用例。

九大顶级模型无一幸免

评测结果令人震惊：在测试的9个前沿模型中，主指标“完全通过率”（全部测试用例通过）全部为0%。表现最佳的Claude Opus 4.7在辅助指标“几乎通过”（≥95%测试通过）上也仅获得3%的通过率，Claude Opus 4.6紧随其后达到2.5%。其余模型——包括Claude Sonnet 4.6、Claude Haiku 4.5、Gemini 3.1 Pro、Gemini 3 Flash、GPT 5.4、GPT 5.4 mini及GPT 5 mini——均交出白卷。

值得注意的是，多数AI智能体并非因超时而失败，而是在主动宣布完成后提交了行为不完整的实现。这一现象揭示了当前AI模型在真实软件逆向场景中与人类工程师之间的巨大差距。

研究团队指出，尽管这些模型在现有SWE-bench上表现优异（如72%通过率），但在需要从零构建可执行程序的场景中集体“归零”，凸显了现有AI评估体系可能存在的盲点。ProgramBench代码现已以MIT许可证开源。

相关文章