独立评测揭示MiniMax M3真实水平:DeepSWE通过率13.3%,远低于官方宣传
独立开发者 @bleysg 发布的实测报告,为MiniMax M3编码模型的真实能力提供了一份冷静的参照。在包含113个真实开源项目feature任务的DeepSWE长程软件工程基准测试中,MiniMax M3在90分钟常规时限内仅取得**13.3%(15/113)**的strict智能体通过率,这一数字大幅低于官方先前宣称的59.0%前沿指标。
按编程语言细分:JavaScript表现最佳
从编程语言维度来看,模型在不同语言任务上呈现明显差异:
- JavaScript:40.0%(2/5)——各语言中通过率最高
- TypeScript:17.1%(6/35)
- Go:11.8%(4/34)
- Python:8.8%(3/34)
- Rust:0%(0/5)——5个任务全部失败
值得注意的是,在未通过的任务中,M3展现出较高的解决精度,有35个任务的测试通过率达到90%以上,被归类为「近乎通过」状态。这表明模型在部分任务上已接近正确解决方案,只是未能完全达标。
高稳定性与高开销并存
与较高精度相对应的是,M3在防回归方面表现优异:在113个任务中仅有8次因破坏原有测试套件而导致失败,表明模型底层具备良好的代码稳定性,对已有代码的侵入性较低。
然而,这一稳定性伴随着极高的资源消耗。在DeepSWE基准下,模型单次任务运行中位数高达325步,输出Token中位数达8万个,单任务平均成本高达7.48美元。极高的计算开销使得M3在效率维度上仍有较大优化空间。若放宽时间限制,extended通过率可提升至16.8%(19/113),额外解决4个耗时超90分钟的多文件复杂任务。
行业背景:中国开源编程模型竞争激烈
当前国产大模型在编程领域竞争日趋白热化。据Atlas Cloud的2026年开源编程大模型排名显示,DeepSeek V4、Kimi K2、GLM-5等产品已形成激烈竞争态势,其中DeepSeek系列凭借混合专家(MoE)架构带来的高效率在推理成本上具备显著优势。MiniMax M3的独立评测数据表明,模型的实际表现与官方宣传之间存在较大落差,行业基准测试的独立可信度值得持续关注。