MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

AllenAI 开源 EMO 模型:打破 MoE 部署壁垒,75% 参数裁剪性能仅降 1%

AllenAI 发布开源 MoE 新范式 EMO,通过文档级专家分组机制实现模型模块化,允许按领域独立部署专家子模型,大幅降低端侧部署门槛。

References

AllenAI 近日发布开源模型系列 EMO(Emergent Modularity),提出一种全新的混合专家(MoE)预训练范式,有望打破传统 MoE 必须整体打包部署的内存限制。

从「打包部署」到「按需抽取」

混合专家模型(MoE)是一种将复杂任务分解给多个专业化「专家」子网络处理的架构,门控网络动态分配每个 token 给最合适的专家。这种稀疏激活机制让模型在保持超大容量的同时控制计算开销——DeepSeek-V3、Mixtral 8×7B、GPT-4 等明星模型背后均有 MoE 架构的身影。

然而,传统 MoE 的专家分工往往过于细碎(例如专门处理某种标点),导致部署时少一个专家都不行,难以按领域独立调用。EMO 的核心创新在于:

在预训练阶段引入硬约束——同一篇文档内的所有 token 只能从一个共享的专家池中选人。

由于同一篇文档通常只聚焦一个领域,这种设计逼使专家在无人工标注的情况下,自动形成了按领域划分的专业技能组,实现了「 emergent modularity」(涌现模块化)。

关键数据:参数裁剪 75%,性能仅降 1%

团队使用 1 万亿 token 训练出系列 EMO 模型,主力版本拥有 140 亿总参数,单次激活仅 10 亿。测试结果如下:

  • 完整模型:性能与标准 MoE 持平
  • 保留 25% 专家参数:性能仅下降 1 个百分点
  • 砍至 12.5% 参数:下降幅度也只有 3 个百分点

作为对比,标准 MoE 在同等裁剪下会直接崩溃。这一特性使得开发者可以根据任务需求,直接抽出「懂代码」或「懂数学」的专家子集,当成独立小模型运行。

意义:降低端侧部署门槛

EMO 的模块化设计为端侧或内存受限设备的大模型部署开辟了新路径——不必运行完整模型,按需调用相关领域专家即可获得接近完整的性能表现。目前模型已在 Hugging Face 开源。