MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Datacurve 开源 DeepSWE 基准:代码量达 SWE-Bench 五倍,直击 AI 编程智能体真实能力

AI 基础设施初创公司 Datacurve 宣布开源 DeepSWE 基准测试,通过五倍于传统基准的代码规模和极简指令设计,更真实地评估大模型在复杂软件工程任务中的自主编程能力。

References

Datacurve 开源 DeepSWE:重新定义 AI 编程智能体评测标准

AI 基础设施初创公司 Datacurve 于 2026 年 5 月 27 日宣布开源全新编程智能体基准测试 DeepSWE,旨在评估前沿大模型在超长、复杂真实软件工程任务中的自主编程能力。这一基准的推出,呼应了行业对现有评测体系可信度的质疑——正如智源社区此前指出,SWE-bench 等传统基准因覆盖范围有限,正被出卷者自己放弃。

难度大幅升级:代码规模是传统基准的 5.5 倍

DeepSWE 首批包含 113 个真实开发任务,涵盖 TypeScript、Go、Python、JavaScript 和 Rust 五种编程语言。与主流基准 SWE-Bench Pro 相比,DeepSWE 在难度上实现了质的跨越:

  • 平均参考解答代码量:668 行(vs SWE-Bench 的约 120 行)
  • 平均涉及文件数:7 个不同文件
  • 整体复杂度:达到 SWE-Bench Pro 的 5.5 倍

更关键的是,智能体收到的提示指令平均仅有 2158 个字符,要求模型依靠极简指令自主完成深度推理与代码库遍历,高度模拟真实开发场景中的模糊委托体验。

反基准污染:原创任务 + 统一框架

针对公共数据集普遍存在的预训练污染与模型记忆问题,DeepSWE 采取了两项措施:

  1. 全盘采用重新编写的原创任务,从源头避免数据泄露
  2. 剥离各厂商专属脚手架工具,统一采用开源框架 mini-swe-agent 运行所有模型测试

此外,该基准摒弃了依赖内部细节的传统自动化打分器,改用手工编写的行为验证器测试最终代码的可观测表现,从而提供高保真评测精度。

首轮评测结果:前沿模型代差显著

在 DeepSWE 的首批模型评测中,各家大模型的能力表现拉开了显著差距:

模型 解决率
GPT-5.5 70%
GPT-5.4 56%
Claude Opus 4.7 54%
Claude Sonnet 4.6 32%
Gemini 3.5 Flash 28%
GPT-5.4 Mini 24%
Kimi K2.6 24%
MiMo v2.5 Pro 19%
GLM-5.1 18%
DeepSeek-V4 Pro 8%

值得注意的是,追求极致性价比的 DeepSeek-V4 Pro 在长程工程测试中仅取得 8% 的解决率,暴露出在多步骤、大文件编辑场景下长程规划与自我修正能力的短板。这与 BeyondSWE 此前揭示的行业痛点一致:现有 AI 模型在真实软件工程中缺乏系统性工程思维。

行业意义

DeepSWE 的出现填补了现有评测体系的空白。与 BeyondSWE 类似,该基准试图撕开「开卷填空」的标签——真实软件工程中最常见、最棘手的跨仓库检索、领域知识理解、依赖升级等场景,恰恰是传统评测的盲区。当 AI 编程能力评估从「能否答对题」转向「能否完成真实工程委托」,整个行业都需要重新校准对大模型编程能力的预期。