web-supplemented 2026-06-02 19:25 MiniMax-M2.7

MiniMax M3 独立评测揭Benchmark差距：DeepSWE仅13.3%通过率，高昂算力成本成短板

独立开发者实测MiniMax M3在DeepSWE长程软件工程基准上仅获13.3%通过率，与官方宣称的SWE-bench Pro 59.0%成绩差距悬殊，暴露出Benchmark评测标准差异及算力成本高企的双重挑战。

minimax大模型codingswe-benchai编程深度评测

References

独立测评揭国产旗舰Coding模型真实水位

国产大模型厂商MiniMax上月高调发布M3旗舰模型，宣称具备"前沿Coding能力"并剑指行业顶尖水准。然而，一位独立开发者的实测报告却揭示出另一番景象。

独立开发者 @bleysg 近日在DeepSWE长程软件工程基准上对MiniMax M3进行了独立评测。这项包含113个真实开源功能开发任务的测试显示，模型在90分钟常规时限内仅取得**13.3%（15/113）**的严格标准通过率。

这一数字与MiniMax官方在发布时宣称的SWE-bench Pro **59.0%**评测成绩形成了鲜明对比，暴露出不同Benchmark评测标准之间可能存在的显著差异。

在已公布的DeepSWE榜单中，MiniMax M3的表现落后于国内主流竞品：

值得注意的是，在SWE-bench Pro这一更受认可的权威基准上，MiniMax官方数据显示M3得分超过GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7的64.3%水准。这一差异表明，Benchmark的选取和评测方式对结果影响巨大。

评测数据揭示了MiniMax M3在不同编程语言任务上的表现分化：

此外，在未完全解决的113个任务中，有35个任务的隐藏测试通过率已超过90%，被归类为"近乎通过"。全部任务中仅8次因破坏既有代码导致失败，表明模型倾向于生成保守补丁，回归缺陷风险较低。

尽管代码防回归表现尚可，但M3的运行开销成为显著短板。DeepSWE基准下，模型解决单个任务的数据中位数令人关注：

高昂的资源开销意味着，相比主流前沿模型，M3在计算效率上仍有较大提升空间。报告同时指出，若放宽运行时间限制至更长周期，模型的扩展时限通过率可提升至16.8%（19/113），额外解决4个耗时超过90分钟的多文件复杂任务。

这一评测结果折射出国产大模型厂商在Coding赛道的激烈竞争。2025年至2026年间，智谱GLM、MiniMax、月之暗面Kimi、DeepSeek等头部厂商相继将研发资源集中投向Coding方向，相继发布专项模型并刷新各项基准榜单。

然而，钛媒体此前报道指出，各厂商在Benchmark选取、评测环境和配置参数上的差异，使得横向对比往往缺乏统一标尺。独立实测数据的出现，为行业提供了一面更客观的镜子。