web-supplemented 2026-05-21 12:52 MiniMax-M2.7

智谱等联合推出ZCube网络架构，直击大模型PD分离推理网络拥塞痛点

智谱AI、驭驯网络与清华大学联合发布ZCube组网架构，通过全网扁平化拓扑解决PD分离部署中的结构性网络拥塞问题，在实际生产环境中实现硬件成本降低33%、推理吞吐提升15%的显著效果。

ai大模型推理优化网络架构pd分离智谱zcube

References

背景：PD分离架构下的网络挑战

随着大模型应用从简单对话形态演进至复杂Agent闭环任务，输入输出Token比例已从传统的3:1飙升至100:1甚至1000:1。为优化推理效率，业界逐步采用Prefill-Decode（PD）分离架构——用高算力GPU处理输入Token的预填充（Prefill），用大显存GPU负责逐token生成（Decode）。

然而，PD分离后KV Cache的跨节点传输使推理流量呈现严重不对称特征，传统ROFT（Rail-Optimized Fat-Tree）架构极易引发局部热点和链路冲突，导致结构性网络拥塞。这不仅影响推理吞吐量，更直接拖累用户感知的首Token时延（TTFT）。

ZCube：扁平化拓扑+混合轨接入

针对这一痛点，智谱AI、驭驯网络与清华大学联合攻关，提出并在GLM-5.1 Coding千卡生产环境中落地了ZCube组网架构。

核心设计思路：

取消Spine层交换机：采用全网扁平化拓扑，将网络直径压缩至2跳，大幅降低跨节点通信路径
单/多轨混合接入机制：结合单轨与多轨接入优势，灵活适配不同推理场景
架构级负载均衡：实现跨节点全网交换机之间的流量均衡，从根本上消除局部热点

实测性能：成本与效率双丰收

在保持GPU、软件栈及应用完全不变的前提下，生产集群基准测试显示：

指标	提升幅度
硬件支出（交换机+光模块）	降低33%
GPU平均推理吞吐率	提升15%
TTFT P99分位数	下降40.6%

技术价值与行业意义

相比DeepSeek等厂商针对MoE专家并行的高成本优化方案，ZCube代表了面向Dense模型的主流路线——通过架构创新而非堆砌硬件资源来突破网络瓶颈。该方案在保持较低部署门槛的同时，兼顾了成本效益与性能提升，对当前以Dense模型为主的toB行业大模型及边缘计算场景具有较高参考价值。

背景：PD分离架构下的网络挑战

ZCube：扁平化拓扑+混合轨接入

实测性能：成本与效率双丰收

技术价值与行业意义

相关文章