web-supplemented 2026-05-27 12:02 MiniMax-M2.7

MiniMax发布M2系列完整技术报告：2299亿参数稀疏MoE架构首次系统公开

MiniMax在arXiv发表M2系列35页完整技术报告，首次系统公开从架构设计、Agent训练平台Forge到M2.7自进化机制的完整技术细节，旗舰模型激活参数仅98亿但性能可比肩Gemini-3.1。

minimax大模型moeagentarxiv自进化

References

MiniMax于arXiv发布M2系列完整技术报告《The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence》，首次系统公开了从旗舰M2到M2.7的架构设计、Agent强化学习系统与自进化训练细节。这份35页的技术报告将今年3月已发布的M2系列做了完整技术归档，涵盖架构、数据管线、Forge训练系统及M2.7自主进化机制。

架构选择：回归全注意力路线

技术报告详细解释了M2为何放弃稀疏注意力而回归全注意力路线。团队指出，线性或稀疏注意力在常规榜单上表现尚可，但在复杂多步推理与超过32k的超长上下文任务中会暴露性能退化问题。M2采用全注意力配合GQA（分组查询注意力），在保持192k原生上下文的同时，通过多Token预测（MTP）模块降低推理时延。MTP在预训练阶段预测未来1个token，微调阶段通过权重复制扩展为并行预测3个token，可直接作为投机解码的草稿路径。

路由机制上，M2舍弃传统Softmax门控，改用带可学习偏差的Sigmoid门控，旨在消除专家竞争导致的零和博弈约束，平滑专家激活过程。模型拥有229.9B总参数，单token激活9.8B参数，由256个细粒度专家组成，每token激活8个专家。

Forge平台：Agent训练的工程突破

Agent训练平台Forge解决了吞吐量、训练稳定性与灵活性的工程瓶颈。平台采用三模块解耦设计，引入“窗口化先进先出调度”（Windowed-FIFO Scheduling）平抑序列长度方差导致的计算阻塞，并利用“前缀树合并”（Prefix Tree Merging）将多轮对话的共享前缀合并计算，最高带来40倍训练提速。

M2.7自进化：AI自主优化训练流程

M2.7展现出显著的自主进化能力，能够在内部基础设施上自动诊断失败的训练运行，通过读取日志、修改和升级自身编程框架（Scaffold）完成多轮自我迭代，使内部评测性能提升30%。

基准测试数据显示，单token激活9.8B参数的M2.7在软件工程智能体基准SWE-Pro取得56.22%得分，Multi-SWE-bench取得52.7%，在机器学习工程基准MLE Bench的22个竞赛与3次24小时自主运行测试中取得66.6%的平均奖牌率，表现与Gemini-3.1持平。

架构选择：回归全注意力路线

Forge平台：Agent训练的工程突破

M2.7自进化：AI自主优化训练流程

相关文章