MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

智谱等联合推出ZCube网络架构,直击大模型PD分离推理网络拥塞痛点

智谱AI、驭驯网络与清华大学联合发布ZCube组网架构,通过全网扁平化拓扑解决PD分离部署中的结构性网络拥塞问题,在实际生产环境中实现硬件成本降低33%、推理吞吐提升15%的显著效果。

References

背景:PD分离架构下的网络挑战

随着大模型应用从简单对话形态演进至复杂Agent闭环任务,输入输出Token比例已从传统的3:1飙升至100:1甚至1000:1。为优化推理效率,业界逐步采用Prefill-Decode(PD)分离架构——用高算力GPU处理输入Token的预填充(Prefill),用大显存GPU负责逐token生成(Decode)。

然而,PD分离后KV Cache的跨节点传输使推理流量呈现严重不对称特征,传统ROFT(Rail-Optimized Fat-Tree)架构极易引发局部热点和链路冲突,导致结构性网络拥塞。这不仅影响推理吞吐量,更直接拖累用户感知的首Token时延(TTFT)。

ZCube:扁平化拓扑+混合轨接入

针对这一痛点,智谱AI、驭驯网络与清华大学联合攻关,提出并在GLM-5.1 Coding千卡生产环境中落地了ZCube组网架构。

核心设计思路:

  • 取消Spine层交换机:采用全网扁平化拓扑,将网络直径压缩至2跳,大幅降低跨节点通信路径
  • 单/多轨混合接入机制:结合单轨与多轨接入优势,灵活适配不同推理场景
  • 架构级负载均衡:实现跨节点全网交换机之间的流量均衡,从根本上消除局部热点

实测性能:成本与效率双丰收

在保持GPU、软件栈及应用完全不变的前提下,生产集群基准测试显示:

指标 提升幅度
硬件支出(交换机+光模块) 降低33%
GPU平均推理吞吐率 提升15%
TTFT P99分位数 下降40.6%

技术价值与行业意义

相比DeepSeek等厂商针对MoE专家并行的高成本优化方案,ZCube代表了面向Dense模型的主流路线——通过架构创新而非堆砌硬件资源来突破网络瓶颈。该方案在保持较低部署门槛的同时,兼顾了成本效益与性能提升,对当前以Dense模型为主的toB行业大模型及边缘计算场景具有较高参考价值。