web-supplemented 2026-05-09 16:06 MiniMax-M2.7

AllenAI 开源 EMO 模型：打破 MoE 部署壁垒，75% 参数裁剪性能仅降 1%

AllenAI 发布开源 MoE 新范式 EMO，通过文档级专家分组机制实现模型模块化，允许按领域独立部署专家子模型，大幅降低端侧部署门槛。

allenaiemo混合专家模型开源模型模型压缩端侧部署

References

AllenAI 近日发布开源模型系列 EMO（Emergent Modularity），提出一种全新的混合专家（MoE）预训练范式，有望打破传统 MoE 必须整体打包部署的内存限制。

从「打包部署」到「按需抽取」

混合专家模型（MoE）是一种将复杂任务分解给多个专业化「专家」子网络处理的架构，门控网络动态分配每个 token 给最合适的专家。这种稀疏激活机制让模型在保持超大容量的同时控制计算开销——DeepSeek-V3、Mixtral 8×7B、GPT-4 等明星模型背后均有 MoE 架构的身影。

然而，传统 MoE 的专家分工往往过于细碎（例如专门处理某种标点），导致部署时少一个专家都不行，难以按领域独立调用。EMO 的核心创新在于：

在预训练阶段引入硬约束——同一篇文档内的所有 token 只能从一个共享的专家池中选人。

由于同一篇文档通常只聚焦一个领域，这种设计逼使专家在无人工标注的情况下，自动形成了按领域划分的专业技能组，实现了「 emergent modularity」（涌现模块化）。

团队使用 1 万亿 token 训练出系列 EMO 模型，主力版本拥有 140 亿总参数，单次激活仅 10 亿。测试结果如下：

作为对比，标准 MoE 在同等裁剪下会直接崩溃。这一特性使得开发者可以根据任务需求，直接抽出「懂代码」或「懂数学」的专家子集，当成独立小模型运行。

EMO 的模块化设计为端侧或内存受限设备的大模型部署开辟了新路径——不必运行完整模型，按需调用相关领域专家即可获得接近完整的性能表现。目前模型已在 Hugging Face 开源。