web-supplemented 2026-05-27 09:07 MiniMax-M2.7

MiniMax发布M3稀疏注意力机制：百万Token上下文提速最高15.6倍

MiniMax在X平台预告新一代M3模型，引入稀疏注意力机制（MSA），在100万Token上下文场景下实现Prefill阶段9.7倍、解码阶段15.6倍的性能提升，标志着该公司在高效注意力路线上的再次探索。

minimaxm3稀疏注意力长上下文大模型ai

References

MiniMax工程负责人Skyler Miao于X平台发布预告，披露下一代模型M3将搭载全新MiniMax Sparse Attention（MSA，稀疏注意力机制），在超长上下文场景下实现显著性能突破。

百万Token上下文：计算瓶颈的范式转移

当上下文窗口迈向百万Token级别，长文本推理的核心瓶颈正在发生转移。传统上，显存容量（VRAM）是主要限制因素；而当上下文超过100k tokens时，全稠密注意力的高昂计算成本开始成为本地部署的核心障碍。

MSA在100万（1M）Token超长上下文场景下的测试数据显示：

Prefill（预填充）阶段：注意力延迟降低，对应提速约9.7倍
Decode（解码）阶段：注意力延迟降低，对应提速约15.6倍

这一改进与行业整体趋势一致。Redis创始人Salvatore Sanfilippo（antirez）评价MSA路线为「正确的道路」，认为在本地推理中稠密注意力的开销难以为继。

技术路线演进：从线性注意力到稀疏注意力的折返

MSA的推出标志着MiniMax在高效注意力路线上的又一次折返。回顾该公司的发展历程：

M1系列：深度使用Lightning Attention等线性注意力机制
M2：退回全注意力（Full Attention）架构
M3：重新引入稀疏注意力设计

2025年10月29日，MiniMax预训练负责人孙浩海在官方博客中详解了从线性注意力「折返」至全注意力的技术权衡：线性或稀疏注意力在常规榜单上表现良好，但在代码、数学、Agent及长链CoT（链式思考）等复杂推理场景下容易暴露性能退化问题；同时，当时前缀缓存、低精度状态存储与投机解码等配套系统尚不成熟。

这一决策反映了高效注意力在理论效率与实际性能之间的艰难取舍。

行业对标：混合注意力的广泛探索

MSA并非行业唯一的长上下文方案。DeepSeek V4在1M上下文上的系统级优化同样依赖混合注意力设计，通过以下技术组合降低KV缓存压力：

压缩稀疏注意力（CSA）
高压缩率注意力（HCA，128倍压缩后执行稠密注意力）
滑动窗口注意力（SWA）

这些技术路径的共同目标，是在降低计算开销与保持模型推理能力之间寻求平衡。

展望：待验证的技术承诺

尽管分块索引和稀疏计算的设计路径清晰，MSA能否在不损害模型推理能力的前提下稳定落地，仍有待以下检验：

正式技术报告发布
模型权重开源
第三方独立复现验证

MiniMax M3的具体发布时间、参数规模及多模态能力尚未完全披露，预计将在后续技术博文中逐步揭晓。

信源：Skyler Miao X推文

百万Token上下文：计算瓶颈的范式转移

技术路线演进：从线性注意力到稀疏注意力的折返

行业对标：混合注意力的广泛探索

展望：待验证的技术承诺

相关文章