MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

MiniMax M3 独立评测揭Benchmark差距:DeepSWE仅13.3%通过率,高昂算力成本成短板

独立开发者实测MiniMax M3在DeepSWE长程软件工程基准上仅获13.3%通过率,与官方宣称的SWE-bench Pro 59.0%成绩差距悬殊,暴露出Benchmark评测标准差异及算力成本高企的双重挑战。

References

独立测评揭国产旗舰Coding模型真实水位

国产大模型厂商MiniMax上月高调发布M3旗舰模型,宣称具备"前沿Coding能力"并剑指行业顶尖水准。然而,一位独立开发者的实测报告却揭示出另一番景象。

DeepSWE实测:13.3%通过率与59%官方数据的落差

独立开发者 @bleysg 近日在DeepSWE长程软件工程基准上对MiniMax M3进行了独立评测。这项包含113个真实开源功能开发任务的测试显示,模型在90分钟常规时限内仅取得**13.3%(15/113)**的严格标准通过率。

这一数字与MiniMax官方在发布时宣称的SWE-bench Pro **59.0%**评测成绩形成了鲜明对比,暴露出不同Benchmark评测标准之间可能存在的显著差异。

国内竞品横向对比:M3位列中游

在已公布的DeepSWE榜单中,MiniMax M3的表现落后于国内主流竞品:

  • Kimi-k2.6:24%通过率
  • GLM-5.1:18%通过率
  • MiniMax M3:13.3%(15/113)
  • Gemini 3.1 Pro:10%
  • DeepSeek V4 Pro:8%

值得注意的是,在SWE-bench Pro这一更受认可的权威基准上,MiniMax官方数据显示M3得分超过GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7的64.3%水准。这一差异表明,Benchmark的选取和评测方式对结果影响巨大。

分语言表现:JavaScript领先,Rust全灭

评测数据揭示了MiniMax M3在不同编程语言任务上的表现分化:

语言 通过率
JavaScript 40.0%(2/5)
TypeScript 17.1%(6/35)
Go 11.8%(4/34)
Python 8.8%(3/34)
Rust 0%(0/5)

此外,在未完全解决的113个任务中,有35个任务的隐藏测试通过率已超过90%,被归类为"近乎通过"。全部任务中仅8次因破坏既有代码导致失败,表明模型倾向于生成保守补丁,回归缺陷风险较低。

高昂算力成本成显著短板

尽管代码防回归表现尚可,但M3的运行开销成为显著短板。DeepSWE基准下,模型解决单个任务的数据中位数令人关注:

  • 运行步骤中位数:325步
  • 输出Token中位数:8万个
  • 单任务平均成本中位数:7.48美元

高昂的资源开销意味着,相比主流前沿模型,M3在计算效率上仍有较大提升空间。报告同时指出,若放宽运行时间限制至更长周期,模型的扩展时限通过率可提升至16.8%(19/113),额外解决4个耗时超过90分钟的多文件复杂任务。

行业背景:Coding能力成国产大模型必争之地

这一评测结果折射出国产大模型厂商在Coding赛道的激烈竞争。2025年至2026年间,智谱GLM、MiniMax、月之暗面Kimi、DeepSeek等头部厂商相继将研发资源集中投向Coding方向,相继发布专项模型并刷新各项基准榜单。

然而,钛媒体此前报道指出,各厂商在Benchmark选取、评测环境和配置参数上的差异,使得横向对比往往缺乏统一标尺。独立实测数据的出现,为行业提供了一面更客观的镜子。