MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

独立评测揭示MiniMax M3真实能力:DeepSWE通过率仅13.3%

独立开发者实测MiniMax M3编码模型在DeepSWE软件工程基准上仅获13.3%通过率,远低于官方59.0%宣传指标,但模型展现低回归缺陷率与高解决精度等亮点。

References

独立评测揭示MiniMax M3真实水平:DeepSWE通过率13.3%,远低于官方宣传

独立开发者 @bleysg 发布的实测报告,为MiniMax M3编码模型的真实能力提供了一份冷静的参照。在包含113个真实开源项目feature任务的DeepSWE长程软件工程基准测试中,MiniMax M3在90分钟常规时限内仅取得**13.3%(15/113)**的strict智能体通过率,这一数字大幅低于官方先前宣称的59.0%前沿指标。

按编程语言细分:JavaScript表现最佳

从编程语言维度来看,模型在不同语言任务上呈现明显差异:

  • JavaScript:40.0%(2/5)——各语言中通过率最高
  • TypeScript:17.1%(6/35)
  • Go:11.8%(4/34)
  • Python:8.8%(3/34)
  • Rust:0%(0/5)——5个任务全部失败

值得注意的是,在未通过的任务中,M3展现出较高的解决精度,有35个任务的测试通过率达到90%以上,被归类为「近乎通过」状态。这表明模型在部分任务上已接近正确解决方案,只是未能完全达标。

高稳定性与高开销并存

与较高精度相对应的是,M3在防回归方面表现优异:在113个任务中仅有8次因破坏原有测试套件而导致失败,表明模型底层具备良好的代码稳定性,对已有代码的侵入性较低。

然而,这一稳定性伴随着极高的资源消耗。在DeepSWE基准下,模型单次任务运行中位数高达325步,输出Token中位数达8万个,单任务平均成本高达7.48美元。极高的计算开销使得M3在效率维度上仍有较大优化空间。若放宽时间限制,extended通过率可提升至16.8%(19/113),额外解决4个耗时超90分钟的多文件复杂任务。

行业背景:中国开源编程模型竞争激烈

当前国产大模型在编程领域竞争日趋白热化。据Atlas Cloud的2026年开源编程大模型排名显示,DeepSeek V4、Kimi K2、GLM-5等产品已形成激烈竞争态势,其中DeepSeek系列凭借混合专家(MoE)架构带来的高效率在推理成本上具备显著优势。MiniMax M3的独立评测数据表明,模型的实际表现与官方宣传之间存在较大落差,行业基准测试的独立可信度值得持续关注。

信源: MiniMax M3 DeepSWE 独立评测报告