搜索引擎巨头Perplexity AI于近日正式开源生产环境使用的高性能推理基础设施工具包pplx-garden,旨在打破大模型推理领域对英伟达专属高速通信网络的依赖。该项目核心为自研的Rust高性能点对点通信库fabric-lib(又称TransferEngine),可帮助开发者在无需采购昂贵专属网络交换机的情况下,实现万亿参数大模型在异构多显卡集群上的极速运行。
技术突破:仅依赖可靠性的跨供应商通信抽象
当前高性能通信库如DeepEP依赖ConnectX特有的GPU初始化RDMA(IBGDA),在AWS EFA网卡上无法使用;NVSHMEM虽在EFA上API兼容,但在MoE路由等关键工作负载上性能严重下降。TransferEngine基于一个关键洞察:虽然不同RDMA硬件在消息排序保证上存在差异,但它们都提供可靠性保证。ConnectX的RC传输可配置为忽略排序,而EFA的SRD本质无序。通过仅依赖可靠性而不假设任何排序,TransferEngine成为首个真正支持跨供应商部署的RDMA通信库,在NVIDIA ConnectX-7和AWS EFA上均能达到接近硬件峰值的性能。
具体实现上,TransferEngine采用DomainGroup架构,每个GPU对应一个DomainGroup,透明处理不同硬件平台的网卡数量差异。单个ConnectX-7网卡提供400 Gbps带宽,而在AWS p5实例上需聚合四个100 Gbps EFA NIC(或p5en实例上的两个200 Gbps EFA NIC)才能达到相同带宽。系统启用IBV_ACCESS_RELAXED_ORDERING以允许NIC和GPU内存之间的无序PCIe事务。
生产效能:权重同步与分词器的双重优化
在实际生产中,pplx-garden带来了显著的工程效益。在异步强化学习微调中,训练和推理在独立GPU上运行,传统设计使用集体通信使训练Rank0的网卡成为瓶颈。TransferEngine实现直接权重传输,每个训练GPU使用单向RDMA写入直接将其参数分片发送到相应推理GPU,仅需1.3秒即可完成万亿参数级模型的权重同步与下发。此外,项目配套开源了用Rust重构的pplx-unigram分词器,将CPU消耗降低5至6倍,消除了重排与向量模型在分词阶段的性能瓶颈。
行业背景:高速互联网络成为算力瓶颈
当前大模型参数正从千亿迈向万亿,算力集群规模从千卡走向万卡并加速向十万卡逼近。研究表明,在大规模分布式训练中,网络通信耗时占比已达30-50%,这意味着花重金购入的计算卡有近一半时间不是在计算,而是在等待数据搬运完成。中科曙光高级副总裁李斌直言:「计算决定了计算系统性能的上限,但网络系统如果拉垮,可能将整个性能下限归零。」
这一背景下,Perplexity的pplx-garden为行业提供了一条绕过英伟达专属网络协议的可行路径,有助于降低大规模AI推理的硬件部署成本,同时避免供应链锁死风险。