web-supplemented 2026-05-27 19:07 MiniMax-M2.7

Datacurve 开源 DeepSWE 基准：代码量达 SWE-Bench 五倍，直击 AI 编程智能体真实能力

AI 基础设施初创公司 Datacurve 宣布开源 DeepSWE 基准测试，通过五倍于传统基准的代码规模和极简指令设计，更真实地评估大模型在复杂软件工程任务中的自主编程能力。

deepsteai编程基准测试大模型软件工程datacurve

References

Datacurve 开源 DeepSWE：重新定义 AI 编程智能体评测标准

AI 基础设施初创公司 Datacurve 于 2026 年 5 月 27 日宣布开源全新编程智能体基准测试 DeepSWE，旨在评估前沿大模型在超长、复杂真实软件工程任务中的自主编程能力。这一基准的推出，呼应了行业对现有评测体系可信度的质疑——正如智源社区此前指出，SWE-bench 等传统基准因覆盖范围有限，正被出卷者自己放弃。

难度大幅升级：代码规模是传统基准的 5.5 倍

DeepSWE 首批包含 113 个真实开发任务，涵盖 TypeScript、Go、Python、JavaScript 和 Rust 五种编程语言。与主流基准 SWE-Bench Pro 相比，DeepSWE 在难度上实现了质的跨越：

平均参考解答代码量：668 行（vs SWE-Bench 的约 120 行）
平均涉及文件数：7 个不同文件
整体复杂度：达到 SWE-Bench Pro 的 5.5 倍

更关键的是，智能体收到的提示指令平均仅有 2158 个字符，要求模型依靠极简指令自主完成深度推理与代码库遍历，高度模拟真实开发场景中的模糊委托体验。

反基准污染：原创任务 + 统一框架

针对公共数据集普遍存在的预训练污染与模型记忆问题，DeepSWE 采取了两项措施：

全盘采用重新编写的原创任务，从源头避免数据泄露
剥离各厂商专属脚手架工具，统一采用开源框架 mini-swe-agent 运行所有模型测试

此外，该基准摒弃了依赖内部细节的传统自动化打分器，改用手工编写的行为验证器测试最终代码的可观测表现，从而提供高保真评测精度。

首轮评测结果：前沿模型代差显著

在 DeepSWE 的首批模型评测中，各家大模型的能力表现拉开了显著差距：

模型	解决率
GPT-5.5	70%
GPT-5.4	56%
Claude Opus 4.7	54%
Claude Sonnet 4.6	32%
Gemini 3.5 Flash	28%
GPT-5.4 Mini	24%
Kimi K2.6	24%
MiMo v2.5 Pro	19%
GLM-5.1	18%
DeepSeek-V4 Pro	8%

值得注意的是，追求极致性价比的 DeepSeek-V4 Pro 在长程工程测试中仅取得 8% 的解决率，暴露出在多步骤、大文件编辑场景下长程规划与自我修正能力的短板。这与 BeyondSWE 此前揭示的行业痛点一致：现有 AI 模型在真实软件工程中缺乏系统性工程思维。

行业意义

DeepSWE 的出现填补了现有评测体系的空白。与 BeyondSWE 类似，该基准试图撕开「开卷填空」的标签——真实软件工程中最常见、最棘手的跨仓库检索、领域知识理解、依赖升级等场景，恰恰是传统评测的盲区。当 AI 编程能力评估从「能否答对题」转向「能否完成真实工程委托」，整个行业都需要重新校准对大模型编程能力的预期。

Datacurve 开源 DeepSWE：重新定义 AI 编程智能体评测标准

难度大幅升级：代码规模是传统基准的 5.5 倍

反基准污染：原创任务 + 统一框架

首轮评测结果：前沿模型代差显著

行业意义

相关文章