MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

中科大华为联合推出HyperParallel-MoE框架:昇腾NPU上MoE训练提速最高58%

中国科学技术大学联合华为、北大研发 HyperParallel-MoE 编译调度框架,通过瓦片级异构并行调度技术,在昇腾 A3 NPU 上实现 MoE 大模型专家计算最高提速 58%。

References

中科大华为联合推出 HyperParallel-MoE:昇腾 NPU 上 MoE 训练提速最高 58%

在大模型向大规模 MoE(混合专家)架构演进的过程中,利用国产昇腾(Ascend)芯片训练大模型已成为构建自主可控 AI 算力的重要方向。然而,主流大模型框架大多基于英伟达 CUDA 生态开发,直接移植至昇腾平台时,往往面临硬件队列调度不均、算力利用率低等挑战。

为突破这一瓶颈,中国科学技术大学联合华为技术有限公司、北京大学等团队,共同研发了 HyperParallel-MoE 编译调度框架,针对昇腾 A3 独特的 AIC/AIV 双核硬件架构进行瓦片级(tile-level)精细化调控,旨在解决异构算力在并行调度上的能效瓶颈。该研究成果已发表于 arXiv(论文编号 2605.23764)。

昇腾 A3 异构核的利用率之困

昇腾 A3 拥有两类核心——AIC 负责矩阵乘法运算,AIV 则处理向量计算与通信任务。在传统算子串行调度模式下,这两类核心只能交替工作、轮流空闲,造成硬件资源严重浪费。

实测数据显示,在 256 节点集群上运行 671B 参数的 DeepSeek-V3 风格 MoE 大模型时,AIC 利用率仅为 67%,且约 39% 的专家路由通信延迟暴露在关键计算路径上,成为制约训练效率的显著瓶颈。

三项核心改动带来 1.49 倍延迟缩短

HyperParallel-MoE 的核心创新在于将 MoE-FFN(混合专家前馈网络)计算转化为静态调度的瓦片级异构任务流,通过最大化 AIC 与 AIV 单元的并发利用率突破性能天花板。该框架包含三项关键设计:

1. AIV 驱动的单边写原语:数据瓦片到达即触发计算,无需等待整批数据到齐,显著缩短计算启动延迟。

2. 依赖感知瓦片任务生成:将通信与计算算子统一抽象为瓦片级任务,消解了异构核心间的调度壁垒。

3. 静态调度器预生成任务序列:在单个 kernel 内驱动 AIC/AIV 两类核心并行执行,并充分利用高速 L2 缓存共享中间结果,大幅减少回写和读取 HBM 慢速内存的延迟开销。

性能验证:最高提速 58%,端到端训练提速 8-9%

在 64 节点平衡路由配置下,HyperParallel-MoE 使 MoE-FFN 模块的延迟缩短约 36%,相当于数据处理速度最高提升了 1.58 倍(提速 58%)。在整机端到端运行中,单步训练速度也同步提升了 8% 至 9%

这一结果表明,昇腾芯片的实际能效不仅取决于硬件规格,更关键在于编译器和运行时能否将 AIC/AIV 核心高效协同调度起来。HyperParallel-MoE 为国产算力在大模型训练场景下的高效利用提供了新的技术路径。

背景补充:昇腾 NPU 的 AI Core 在架构上分为耦合与分离两种模式,Atlas A3 训练系列产品采用分离式架构,将 Cube(矩阵)单元和 Vector(向量)单元独立为 AIC 和 AIV 两核。这一架构为 HyperParallel-MoE 的异构并行调度提供了硬件基础,同时也是该框架设计的技术出发点。


本文基于 arXiv 论文 2605.23764 及公开技术资料编写。