Datacurve 开源 DeepSWE:重新定义 AI 编程智能体评测标准
AI 基础设施初创公司 Datacurve 于 2026 年 5 月 27 日宣布开源全新编程智能体基准测试 DeepSWE,旨在评估前沿大模型在超长、复杂真实软件工程任务中的自主编程能力。这一基准的推出,呼应了行业对现有评测体系可信度的质疑——正如智源社区此前指出,SWE-bench 等传统基准因覆盖范围有限,正被出卷者自己放弃。
难度大幅升级:代码规模是传统基准的 5.5 倍
DeepSWE 首批包含 113 个真实开发任务,涵盖 TypeScript、Go、Python、JavaScript 和 Rust 五种编程语言。与主流基准 SWE-Bench Pro 相比,DeepSWE 在难度上实现了质的跨越:
- 平均参考解答代码量:668 行(vs SWE-Bench 的约 120 行)
- 平均涉及文件数:7 个不同文件
- 整体复杂度:达到 SWE-Bench Pro 的 5.5 倍
更关键的是,智能体收到的提示指令平均仅有 2158 个字符,要求模型依靠极简指令自主完成深度推理与代码库遍历,高度模拟真实开发场景中的模糊委托体验。
反基准污染:原创任务 + 统一框架
针对公共数据集普遍存在的预训练污染与模型记忆问题,DeepSWE 采取了两项措施:
- 全盘采用重新编写的原创任务,从源头避免数据泄露
- 剥离各厂商专属脚手架工具,统一采用开源框架 mini-swe-agent 运行所有模型测试
此外,该基准摒弃了依赖内部细节的传统自动化打分器,改用手工编写的行为验证器测试最终代码的可观测表现,从而提供高保真评测精度。
首轮评测结果:前沿模型代差显著
在 DeepSWE 的首批模型评测中,各家大模型的能力表现拉开了显著差距:
| 模型 | 解决率 |
|---|---|
| GPT-5.5 | 70% |
| GPT-5.4 | 56% |
| Claude Opus 4.7 | 54% |
| Claude Sonnet 4.6 | 32% |
| Gemini 3.5 Flash | 28% |
| GPT-5.4 Mini | 24% |
| Kimi K2.6 | 24% |
| MiMo v2.5 Pro | 19% |
| GLM-5.1 | 18% |
| DeepSeek-V4 Pro | 8% |
值得注意的是,追求极致性价比的 DeepSeek-V4 Pro 在长程工程测试中仅取得 8% 的解决率,暴露出在多步骤、大文件编辑场景下长程规划与自我修正能力的短板。这与 BeyondSWE 此前揭示的行业痛点一致:现有 AI 模型在真实软件工程中缺乏系统性工程思维。
行业意义
DeepSWE 的出现填补了现有评测体系的空白。与 BeyondSWE 类似,该基准试图撕开「开卷填空」的标签——真实软件工程中最常见、最棘手的跨仓库检索、领域知识理解、依赖升级等场景,恰恰是传统评测的盲区。当 AI 编程能力评估从「能否答对题」转向「能否完成真实工程委托」,整个行业都需要重新校准对大模型编程能力的预期。