背景:PD分离架构下的网络挑战
随着大模型应用从简单对话形态演进至复杂Agent闭环任务,输入输出Token比例已从传统的3:1飙升至100:1甚至1000:1。为优化推理效率,业界逐步采用Prefill-Decode(PD)分离架构——用高算力GPU处理输入Token的预填充(Prefill),用大显存GPU负责逐token生成(Decode)。
然而,PD分离后KV Cache的跨节点传输使推理流量呈现严重不对称特征,传统ROFT(Rail-Optimized Fat-Tree)架构极易引发局部热点和链路冲突,导致结构性网络拥塞。这不仅影响推理吞吐量,更直接拖累用户感知的首Token时延(TTFT)。
ZCube:扁平化拓扑+混合轨接入
针对这一痛点,智谱AI、驭驯网络与清华大学联合攻关,提出并在GLM-5.1 Coding千卡生产环境中落地了ZCube组网架构。
核心设计思路:
- 取消Spine层交换机:采用全网扁平化拓扑,将网络直径压缩至2跳,大幅降低跨节点通信路径
- 单/多轨混合接入机制:结合单轨与多轨接入优势,灵活适配不同推理场景
- 架构级负载均衡:实现跨节点全网交换机之间的流量均衡,从根本上消除局部热点
实测性能:成本与效率双丰收
在保持GPU、软件栈及应用完全不变的前提下,生产集群基准测试显示:
| 指标 | 提升幅度 |
|---|---|
| 硬件支出(交换机+光模块) | 降低33% |
| GPU平均推理吞吐率 | 提升15% |
| TTFT P99分位数 | 下降40.6% |
技术价值与行业意义
相比DeepSeek等厂商针对MoE专家并行的高成本优化方案,ZCube代表了面向Dense模型的主流路线——通过架构创新而非堆砌硬件资源来突破网络瓶颈。该方案在保持较低部署门槛的同时,兼顾了成本效益与性能提升,对当前以Dense模型为主的toB行业大模型及边缘计算场景具有较高参考价值。