Meta AI联合学术界发布ProgramBench基准,主流AI模型全军覆没
由Meta AI研究团队联合斯坦福大学、哈佛大学共同发布的全新编程基准测试ProgramBench今日公布评测结果。该基准由SWE-bench原班人马John Yang和Kilian Lieret主导开发,旨在测试AI模型在软件逆向工程领域的能力极限。
与传统的编程基准不同,ProgramBench要求AI智能体仅凭一个编译好的二进制文件和使用文档,从零开始架构并实现一套完整代码库,以完全复现原程序的行为。测试规则严格禁止查看源代码、反编译或访问网络,智能体需自主决定编程语言和系统架构。
基准测试涵盖200个任务,范围从小型CLI工具(如jq、ripgrep)延伸至大型项目(FFmpeg、SQLite、PHP解释器)。为确保评测的严谨性,研究团队通过智能体驱动的模糊测试自动生成了超过24.8万条行为测试用例。
九大顶级模型无一幸免
评测结果令人震惊:在测试的9个前沿模型中,主指标“完全通过率”(全部测试用例通过)全部为0%。表现最佳的Claude Opus 4.7在辅助指标“几乎通过”(≥95%测试通过)上也仅获得3%的通过率,Claude Opus 4.6紧随其后达到2.5%。其余模型——包括Claude Sonnet 4.6、Claude Haiku 4.5、Gemini 3.1 Pro、Gemini 3 Flash、GPT 5.4、GPT 5.4 mini及GPT 5 mini——均交出白卷。
值得注意的是,多数AI智能体并非因超时而失败,而是在主动宣布完成后提交了行为不完整的实现。这一现象揭示了当前AI模型在真实软件逆向场景中与人类工程师之间的巨大差距。
研究团队指出,尽管这些模型在现有SWE-bench上表现优异(如72%通过率),但在需要从零构建可执行程序的场景中集体“归零”,凸显了现有AI评估体系可能存在的盲点。ProgramBench代码现已以MIT许可证开源。