MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

MiniMax发布M3稀疏注意力机制:百万Token上下文提速最高15.6倍

MiniMax在X平台预告新一代M3模型,引入稀疏注意力机制(MSA),在100万Token上下文场景下实现Prefill阶段9.7倍、解码阶段15.6倍的性能提升,标志着该公司在高效注意力路线上的再次探索。

References

MiniMax工程负责人Skyler Miao于X平台发布预告,披露下一代模型M3将搭载全新MiniMax Sparse Attention(MSA,稀疏注意力机制),在超长上下文场景下实现显著性能突破。

百万Token上下文:计算瓶颈的范式转移

当上下文窗口迈向百万Token级别,长文本推理的核心瓶颈正在发生转移。传统上,显存容量(VRAM)是主要限制因素;而当上下文超过100k tokens时,全稠密注意力的高昂计算成本开始成为本地部署的核心障碍。

MSA在100万(1M)Token超长上下文场景下的测试数据显示:

  • Prefill(预填充)阶段:注意力延迟降低,对应提速约9.7倍
  • Decode(解码)阶段:注意力延迟降低,对应提速约15.6倍

这一改进与行业整体趋势一致。Redis创始人Salvatore Sanfilippo(antirez)评价MSA路线为「正确的道路」,认为在本地推理中稠密注意力的开销难以为继。

技术路线演进:从线性注意力到稀疏注意力的折返

MSA的推出标志着MiniMax在高效注意力路线上的又一次折返。回顾该公司的发展历程:

  • M1系列:深度使用Lightning Attention等线性注意力机制
  • M2:退回全注意力(Full Attention)架构
  • M3:重新引入稀疏注意力设计

2025年10月29日,MiniMax预训练负责人孙浩海在官方博客中详解了从线性注意力「折返」至全注意力的技术权衡:线性或稀疏注意力在常规榜单上表现良好,但在代码、数学、Agent及长链CoT(链式思考)等复杂推理场景下容易暴露性能退化问题;同时,当时前缀缓存、低精度状态存储与投机解码等配套系统尚不成熟。

这一决策反映了高效注意力在理论效率与实际性能之间的艰难取舍。

行业对标:混合注意力的广泛探索

MSA并非行业唯一的长上下文方案。DeepSeek V4在1M上下文上的系统级优化同样依赖混合注意力设计,通过以下技术组合降低KV缓存压力:

  • 压缩稀疏注意力(CSA)
  • 高压缩率注意力(HCA,128倍压缩后执行稠密注意力)
  • 滑动窗口注意力(SWA)

这些技术路径的共同目标,是在降低计算开销与保持模型推理能力之间寻求平衡。

展望:待验证的技术承诺

尽管分块索引和稀疏计算的设计路径清晰,MSA能否在不损害模型推理能力的前提下稳定落地,仍有待以下检验:

  • 正式技术报告发布
  • 模型权重开源
  • 第三方独立复现验证

MiniMax M3的具体发布时间、参数规模及多模态能力尚未完全披露,预计将在后续技术博文中逐步揭晓。

信源Skyler Miao X推文