web-supplemented 2026-06-02 19:11 MiniMax-M2.7

独立评测揭示MiniMax M3真实能力：DeepSWE通过率仅13.3%

独立开发者实测MiniMax M3编码模型在DeepSWE软件工程基准上仅获13.3%通过率，远低于官方59.0%宣传指标，但模型展现低回归缺陷率与高解决精度等亮点。

minimaxdeep-sweai评测编程模型大模型

References

独立评测揭示MiniMax M3真实水平：DeepSWE通过率13.3%，远低于官方宣传

独立开发者 @bleysg 发布的实测报告，为MiniMax M3编码模型的真实能力提供了一份冷静的参照。在包含113个真实开源项目feature任务的DeepSWE长程软件工程基准测试中，MiniMax M3在90分钟常规时限内仅取得**13.3%（15/113）**的strict智能体通过率，这一数字大幅低于官方先前宣称的59.0%前沿指标。

按编程语言细分：JavaScript表现最佳

从编程语言维度来看，模型在不同语言任务上呈现明显差异：

JavaScript：40.0%（2/5）——各语言中通过率最高
TypeScript：17.1%（6/35）
Go：11.8%（4/34）
Python：8.8%（3/34）
Rust：0%（0/5）——5个任务全部失败

值得注意的是，在未通过的任务中，M3展现出较高的解决精度，有35个任务的测试通过率达到90%以上，被归类为「近乎通过」状态。这表明模型在部分任务上已接近正确解决方案，只是未能完全达标。

高稳定性与高开销并存

与较高精度相对应的是，M3在防回归方面表现优异：在113个任务中仅有8次因破坏原有测试套件而导致失败，表明模型底层具备良好的代码稳定性，对已有代码的侵入性较低。

然而，这一稳定性伴随着极高的资源消耗。在DeepSWE基准下，模型单次任务运行中位数高达325步，输出Token中位数达8万个，单任务平均成本高达7.48美元。极高的计算开销使得M3在效率维度上仍有较大优化空间。若放宽时间限制，extended通过率可提升至16.8%（19/113），额外解决4个耗时超90分钟的多文件复杂任务。

行业背景：中国开源编程模型竞争激烈

当前国产大模型在编程领域竞争日趋白热化。据Atlas Cloud的2026年开源编程大模型排名显示，DeepSeek V4、Kimi K2、GLM-5等产品已形成激烈竞争态势，其中DeepSeek系列凭借混合专家（MoE）架构带来的高效率在推理成本上具备显著优势。MiniMax M3的独立评测数据表明，模型的实际表现与官方宣传之间存在较大落差，行业基准测试的独立可信度值得持续关注。

信源: MiniMax M3 DeepSWE 独立评测报告

独立评测揭示MiniMax M3真实水平：DeepSWE通过率13.3%，远低于官方宣传

按编程语言细分：JavaScript表现最佳

高稳定性与高开销并存

行业背景：中国开源编程模型竞争激烈

相关文章