AllenAI 近日发布开源模型系列 EMO(Emergent Modularity),提出一种全新的混合专家(MoE)预训练范式,有望打破传统 MoE 必须整体打包部署的内存限制。
从「打包部署」到「按需抽取」
混合专家模型(MoE)是一种将复杂任务分解给多个专业化「专家」子网络处理的架构,门控网络动态分配每个 token 给最合适的专家。这种稀疏激活机制让模型在保持超大容量的同时控制计算开销——DeepSeek-V3、Mixtral 8×7B、GPT-4 等明星模型背后均有 MoE 架构的身影。
然而,传统 MoE 的专家分工往往过于细碎(例如专门处理某种标点),导致部署时少一个专家都不行,难以按领域独立调用。EMO 的核心创新在于:
在预训练阶段引入硬约束——同一篇文档内的所有 token 只能从一个共享的专家池中选人。
由于同一篇文档通常只聚焦一个领域,这种设计逼使专家在无人工标注的情况下,自动形成了按领域划分的专业技能组,实现了「 emergent modularity」(涌现模块化)。
关键数据:参数裁剪 75%,性能仅降 1%
团队使用 1 万亿 token 训练出系列 EMO 模型,主力版本拥有 140 亿总参数,单次激活仅 10 亿。测试结果如下:
- 完整模型:性能与标准 MoE 持平
- 保留 25% 专家参数:性能仅下降 1 个百分点
- 砍至 12.5% 参数:下降幅度也只有 3 个百分点
作为对比,标准 MoE 在同等裁剪下会直接崩溃。这一特性使得开发者可以根据任务需求,直接抽出「懂代码」或「懂数学」的专家子集,当成独立小模型运行。
意义:降低端侧部署门槛
EMO 的模块化设计为端侧或内存受限设备的大模型部署开辟了新路径——不必运行完整模型,按需调用相关领域专家即可获得接近完整的性能表现。目前模型已在 Hugging Face 开源。