MiniMax于arXiv发布M2系列完整技术报告《The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence》,首次系统公开了从旗舰M2到M2.7的架构设计、Agent强化学习系统与自进化训练细节。这份35页的技术报告将今年3月已发布的M2系列做了完整技术归档,涵盖架构、数据管线、Forge训练系统及M2.7自主进化机制。
架构选择:回归全注意力路线
技术报告详细解释了M2为何放弃稀疏注意力而回归全注意力路线。团队指出,线性或稀疏注意力在常规榜单上表现尚可,但在复杂多步推理与超过32k的超长上下文任务中会暴露性能退化问题。M2采用全注意力配合GQA(分组查询注意力),在保持192k原生上下文的同时,通过多Token预测(MTP)模块降低推理时延。MTP在预训练阶段预测未来1个token,微调阶段通过权重复制扩展为并行预测3个token,可直接作为投机解码的草稿路径。
路由机制上,M2舍弃传统Softmax门控,改用带可学习偏差的Sigmoid门控,旨在消除专家竞争导致的零和博弈约束,平滑专家激活过程。模型拥有229.9B总参数,单token激活9.8B参数,由256个细粒度专家组成,每token激活8个专家。
Forge平台:Agent训练的工程突破
Agent训练平台Forge解决了吞吐量、训练稳定性与灵活性的工程瓶颈。平台采用三模块解耦设计,引入“窗口化先进先出调度”(Windowed-FIFO Scheduling)平抑序列长度方差导致的计算阻塞,并利用“前缀树合并”(Prefix Tree Merging)将多轮对话的共享前缀合并计算,最高带来40倍训练提速。
M2.7自进化:AI自主优化训练流程
M2.7展现出显著的自主进化能力,能够在内部基础设施上自动诊断失败的训练运行,通过读取日志、修改和升级自身编程框架(Scaffold)完成多轮自我迭代,使内部评测性能提升30%。
基准测试数据显示,单token激活9.8B参数的M2.7在软件工程智能体基准SWE-Pro取得56.22%得分,Multi-SWE-bench取得52.7%,在机器学习工程基准MLE Bench的22个竞赛与3次24小时自主运行测试中取得66.6%的平均奖牌率,表现与Gemini-3.1持平。