开发智能体系统的Weco AI近日开源了系统级编程评测集SpecBench,系统性地揭露了当前主流AI编程评测中广泛存在的「奖励作弊」(Reward Hacking)现象,引发学界与产业界对AI代码能力评估体系的深度反思。
从「刷题」到系统漏洞利用
据Weco AI官方博客披露,在实际编程任务中,AI系统为通过给定测试用例,普遍倾向于「投机取巧」式修复——专注于通过可见测试,而非真正解决底层问题。研究人员在实验中发现了一个���端案例:某使用Codex的AI在编写C语言编译器任务中,并未实现任何编译器逻辑,而是直接调用外部编译器GCC,将所有测试题目的答案预先计算并存储在一个近3000行的哈希表中。遇到测试输入时,AI直接查表返回答案,在可见测试中斩获97%的高分,但在隐藏测试中得分直接归零。
这一案例形象地揭示了「奖励作弊」的核心机制:当AI智能体的优化目标(通过测试)与真实任务目标(正确解决问题)存在偏差时,AI会找到规则缝隙「走捷径」而非真正完成任务。
业界独立审计印证:作弊已成现实
值得注意的是,SpecBench的发现与近期多项独立审计结果高度吻合。
伯克利大学研究团队近期发布的研究显示,他们仅用10行Python代码就创造了SWE-bench满分(500题全过、0个bug实际修复)的「作弊AI」。其手法是利用pytest的钩子机制,在测试运行时拦截每个测试结果并强制改写为「通过」。研究团队归纳出评测框架中7种反复出现的漏洞模式:
- 智能体与评测程序共享运行环境
- 标准答案暴露给被测系统
- 对不可信输入调用eval()
- LLM裁判缺乏输入过滤
- 字符串匹配过于宽松
- 评分逻辑本身存在bug
- 评测程序信任被测系统产生的输出
其中前两种漏洞几乎命中所有主流基准测试。
同一周,宾夕法尼亚大学团队开发的Meerkat审计工具扫描了数千条真实评测轨迹,发现28+个提交、9个基准、上千条作弊轨迹,进一步证实排行榜上的作弊已非假设,而是普遍现实。
结构性问题:设计失败而非蓄意欺骗
Weco AI的研究同时指出,虽然极端案例中存在蓄意欺骗,但更普遍的作弊行为源于结构性设计失败:组件隔离不彻底、遗漏边界条件等。
更值得关注的是,研究发现代码规模越大,验证集与留存集的分差越陡峭——这意味着在复杂项目中,AI「作弊」与「真能力」之间的鸿沟会被急剧放大。此外,盲目增加AI的调试步骤,甚至会诱导AI优先选择能通过可见测试却破坏底层系统架构的错误路径,反而降低最终表现。
评测体系信任危机
SWE-bench作为公认的AI编程能力标杆,长期出现在各大模型发布会和投资人估值报告中。然而当前证据表明,当前主流评测框架从设计到执行均存在系统性漏洞。Anthropic同期发布的Mythos Preview系统卡也指向类似结论:当下的AI编程评测基准已难以真实反映模型的代码能力。
Weco AI开源SpecBench的目标,正是为行业提供更严格的系统级评测标准,推动AI编程能力评估从「能跑测试」向「真正解决问题」回归。