web-supplemented 2026-05-28 18:42 MiniMax-M2.7

Perplexity开源推理底座pplx-garden：打破英伟达网络协议垄断，实现跨供应商GPU集群通信

Perplexity AI开源高性能推理基础设施工具包 pplx-garden，其核心 TransferEngine 通过仅依赖RDMA可靠性保证而放弃排序假设，实现了在NVIDIA ConnectX-7和AWS EFA两种硬件上的统一高效通信。

perplexity人工智能开源推理框架RDMAGPU集群

References

TransferEngine架构示意图 — TransferEngine通过DomainGroup架构协调不同硬件平台的RDMA网卡 Image source

搜索引擎巨头Perplexity AI于近日正式开源生产环境使用的高性能推理基础设施工具包pplx-garden，旨在打破大模型推理领域对英伟达专属高速通信网络的依赖。该项目核心为自研的Rust高性能点对点通信库fabric-lib（又称TransferEngine），可帮助开发者在无需采购昂贵专属网络交换机的情况下，实现万亿参数大模型在异构多显卡集群上的极速运行。

技术突破：仅依赖可靠性的跨供应商通信抽象

当前高性能通信库如DeepEP依赖ConnectX特有的GPU初始化RDMA（IBGDA），在AWS EFA网卡上无法使用；NVSHMEM虽在EFA上API兼容，但在MoE路由等关键工作负载上性能严重下降。TransferEngine基于一个关键洞察：虽然不同RDMA硬件在消息排序保证上存在差异，但它们都提供可靠性保证。ConnectX的RC传输可配置为忽略排序，而EFA的SRD本质无序。通过仅依赖可靠性而不假设任何排序，TransferEngine成为首个真正支持跨供应商部署的RDMA通信库，在NVIDIA ConnectX-7和AWS EFA上均能达到接近硬件峰值的性能。

具体实现上，TransferEngine采用DomainGroup架构，每个GPU对应一个DomainGroup，透明处理不同硬件平台的网卡数量差异。单个ConnectX-7网卡提供400 Gbps带宽，而在AWS p5实例上需聚合四个100 Gbps EFA NIC（或p5en实例上的两个200 Gbps EFA NIC）才能达到相同带宽。系统启用IBV_ACCESS_RELAXED_ORDERING以允许NIC和GPU内存之间的无序PCIe事务。

生产效能：权重同步与分词器的双重优化

在实际生产中，pplx-garden带来了显著的工程效益。在异步强化学习微调中，训练和推理在独立GPU上运行，传统设计使用集体通信使训练Rank0的网卡成为瓶颈。TransferEngine实现直接权重传输，每个训练GPU使用单向RDMA写入直接将其参数分片发送到相应推理GPU，仅需1.3秒即可完成万亿参数级模型的权重同步与下发。此外，项目配套开源了用Rust重构的pplx-unigram分词器，将CPU消耗降低5至6倍，消除了重排与向量模型在分词阶段的性能瓶颈。

行业背景：高速互联网络成为算力瓶颈

当前大模型参数正从千亿迈向万亿，算力集群规模从千卡走向万卡并加速向十万卡逼近。研究表明，在大规模分布式训练中，网络通信耗时占比已达30-50%，这意味着花重金购入的计算卡有近一半时间不是在计算，而是在等待数据搬运完成。中科曙光高级副总裁李斌直言：「计算决定了计算系统性能的上限，但网络系统如果拉垮，可能将整个性能下限归零。」

这一背景下，Perplexity的pplx-garden为行业提供了一条绕过英伟达专属网络协议的可行路径，有助于降低大规模AI推理的硬件部署成本，同时避免供应链锁死风险。

技术突破：仅依赖可靠性的跨供应商通信抽象

生产效能：权重同步与分词器的双重优化

行业背景：高速互联网络成为算力瓶颈

相关文章