MiniMax工程负责人Skyler Miao于X平台发布预告,披露下一代模型M3将搭载全新MiniMax Sparse Attention(MSA,稀疏注意力机制),在超长上下文场景下实现显著性能突破。
百万Token上下文:计算瓶颈的范式转移
当上下文窗口迈向百万Token级别,长文本推理的核心瓶颈正在发生转移。传统上,显存容量(VRAM)是主要限制因素;而当上下文超过100k tokens时,全稠密注意力的高昂计算成本开始成为本地部署的核心障碍。
MSA在100万(1M)Token超长上下文场景下的测试数据显示:
- Prefill(预填充)阶段:注意力延迟降低,对应提速约9.7倍
- Decode(解码)阶段:注意力延迟降低,对应提速约15.6倍
这一改进与行业整体趋势一致。Redis创始人Salvatore Sanfilippo(antirez)评价MSA路线为「正确的道路」,认为在本地推理中稠密注意力的开销难以为继。
技术路线演进:从线性注意力到稀疏注意力的折返
MSA的推出标志着MiniMax在高效注意力路线上的又一次折返。回顾该公司的发展历程:
- M1系列:深度使用Lightning Attention等线性注意力机制
- M2:退回全注意力(Full Attention)架构
- M3:重新引入稀疏注意力设计
2025年10月29日,MiniMax预训练负责人孙浩海在官方博客中详解了从线性注意力「折返」至全注意力的技术权衡:线性或稀疏注意力在常规榜单上表现良好,但在代码、数学、Agent及长链CoT(链式思考)等复杂推理场景下容易暴露性能退化问题;同时,当时前缀缓存、低精度状态存储与投机解码等配套系统尚不成熟。
这一决策反映了高效注意力在理论效率与实际性能之间的艰难取舍。
行业对标:混合注意力的广泛探索
MSA并非行业唯一的长上下文方案。DeepSeek V4在1M上下文上的系统级优化同样依赖混合注意力设计,通过以下技术组合降低KV缓存压力:
- 压缩稀疏注意力(CSA)
- 高压缩率注意力(HCA,128倍压缩后执行稠密注意力)
- 滑动窗口注意力(SWA)
这些技术路径的共同目标,是在降低计算开销与保持模型推理能力之间寻求平衡。
展望:待验证的技术承诺
尽管分块索引和稀疏计算的设计路径清晰,MSA能否在不损害模型推理能力的前提下稳定落地,仍有待以下检验:
- 正式技术报告发布
- 模型权重开源
- 第三方独立复现验证
MiniMax M3的具体发布时间、参数规模及多模态能力尚未完全披露,预计将在后续技术博文中逐步揭晓。