MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

OpenAI联合五大厂商开源MRC协议:十万级GPU集群网络故障恢复进入微秒时代

OpenAI联合AMD、博通、英特尔、微软和英伟达历时两年开发的MRC网络协议正式开源,可将十万量级GPU集群的故障恢复时间从秒级缩短至微秒级。

References

OpenAI于5月6日宣布,联合AMD、博通、英特尔、微软和英伟达五大厂商历时两年开发的MRC(Multipath Reliable Connection,多路径可靠连接)网络协议正式通过开放计算项目(OCP)向全行业开源,为大规模AI训练中的GPU网络通信瓶颈提供了系统性解决方案。

核心痛点与解决思路

在大规模AI模型训练过程中,单次数据传输延迟就可能导致整个训练过程中断,造成GPU空转等待。由于集群规模越大,网络拥塞、链路及设备故障引发的延迟问题越频繁,传统网络架构的扩展性已成为制约AI基础设施效率的关键瓶颈。

MRC的核心创新在于将单一传输任务的数据包分散至数百条路径并行传输(即自适应数据包喷淋技术),而非传统单路径传输模式。这种设计使流量均匀分布,有效避免了核心网络拥塞。

架构革新:两层交换机支撑13万GPU

MRC基于现有的RDMA over RoCE(融合以太网)协议扩展,将一个800Gb/s网口拆分为8个100Gb/s连接,分别接入8个独立网络平面。这一架构变化带来的效率提升极为显著:

  • 端口密度大幅提升:一台64口交换机可连接512个100Gb/s端口
  • 网络层级精简:仅需两层交换机即可实现约13.1万块GPU的全互联网络,传统方案需三至四层
  • 功耗与成本降低:更少的网络层级意味着更低的电力消耗和硬件投入

故障恢复从秒级降至微秒级

MRC摒弃了传统的BGP动态路由协议,转而采用SRv6源路由技术。发送端直接在数据包地址中写入完整路径,交换机仅需按静态路由表转发,彻底消除了动态路由的故障行为。

实际部署数据显示,在NVIDIA GB200超级计算机集群中,即使每分钟出现多次链路抖动或核心交换机重启,MRC也能在不中断训练任务的情况下自动绕过故障,故障响应时间从传统方案的秒级甚至数十秒降至微秒级

部署现状

MRC协议现已内置于最新的800Gb/s网卡,已部署在OpenAI所有最大规模的英伟达GB200超算集群中,包括与Oracle合建的得克萨斯州Abilene集群以及微软的Fairwater超算,用于训练多个前沿模型。随着该协议通过OCP开源,整个行业将受益于这一经过生产环境验证的网络解决方案。