web-supplemented 2026-05-25 17:32 MiniMax-M2.7

中科大华为联合推出HyperParallel-MoE框架：昇腾NPU上MoE训练提速最高58%

中国科学技术大学联合华为、北大研发 HyperParallel-MoE 编译调度框架，通过瓦片级异构并行调度技术，在昇腾 A3 NPU 上实现 MoE 大模型专家计算最高提速 58%。

华为昇腾中科大MoE大模型AI训练NPUHyperParallel-MoE

References

中科大华为联合推出 HyperParallel-MoE：昇腾 NPU 上 MoE 训练提速最高 58%

在大模型向大规模 MoE（混合专家）架构演进的过程中，利用国产昇腾（Ascend）芯片训练大模型已成为构建自主可控 AI 算力的重要方向。然而，主流大模型框架大多基于英伟达 CUDA 生态开发，直接移植至昇腾平台时，往往面临硬件队列调度不均、算力利用率低等挑战。

为突破这一瓶颈，中国科学技术大学联合华为技术有限公司、北京大学等团队，共同研发了 HyperParallel-MoE 编译调度框架，针对昇腾 A3 独特的 AIC/AIV 双核硬件架构进行瓦片级（tile-level）精细化调控，旨在解决异构算力在并行调度上的能效瓶颈。该研究成果已发表于 arXiv（论文编号 2605.23764）。

昇腾 A3 异构核的利用率之困

昇腾 A3 拥有两类核心——AIC 负责矩阵乘法运算，AIV 则处理向量计算与通信任务。在传统算子串行调度模式下，这两类核心只能交替工作、轮流空闲，造成硬件资源严重浪费。

实测数据显示，在 256 节点集群上运行 671B 参数的 DeepSeek-V3 风格 MoE 大模型时，AIC 利用率仅为 67%，且约 39% 的专家路由通信延迟暴露在关键计算路径上，成为制约训练效率的显著瓶颈。

三项核心改动带来 1.49 倍延迟缩短

HyperParallel-MoE 的核心创新在于将 MoE-FFN（混合专家前馈网络）计算转化为静态调度的瓦片级异构任务流，通过最大化 AIC 与 AIV 单元的并发利用率突破性能天花板。该框架包含三项关键设计：

1. AIV 驱动的单边写原语：数据瓦片到达即触发计算，无需等待整批数据到齐，显著缩短计算启动延迟。

2. 依赖感知瓦片任务生成：将通信与计算算子统一抽象为瓦片级任务，消解了异构核心间的调度壁垒。

3. 静态调度器预生成任务序列：在单个 kernel 内驱动 AIC/AIV 两类核心并行执行，并充分利用高速 L2 缓存共享中间结果，大幅减少回写和读取 HBM 慢速内存的延迟开销。

性能验证：最高提速 58%，端到端训练提速 8-9%

在 64 节点平衡路由配置下，HyperParallel-MoE 使 MoE-FFN 模块的延迟缩短约 36%，相当于数据处理速度最高提升了 1.58 倍（提速 58%）。在整机端到端运行中，单步训练速度也同步提升了 8% 至 9%。

这一结果表明，昇腾芯片的实际能效不仅取决于硬件规格，更关键在于编译器和运行时能否将 AIC/AIV 核心高效协同调度起来。HyperParallel-MoE 为国产算力在大模型训练场景下的高效利用提供了新的技术路径。

背景补充：昇腾 NPU 的 AI Core 在架构上分为耦合与分离两种模式，Atlas A3 训练系列产品采用分离式架构，将 Cube（矩阵）单元和 Vector（向量）单元独立为 AIC 和 AIV 两核。这一架构为 HyperParallel-MoE 的异构并行调度提供了硬件基础，同时也是该框架设计的技术出发点。

本文基于 arXiv 论文 2605.23764 及公开技术资料编写。

中科大华为联合推出 HyperParallel-MoE：昇腾 NPU 上 MoE 训练提速最高 58%

昇腾 A3 异构核的利用率之困

三项核心改动带来 1.49 倍延迟缩短

性能验证：最高提速 58%，端到端训练提速 8-9%

相关文章