ITCOW牛新网 5月7日消息,为应对大规模人工智能模型训练中日益严重的网络延迟与可靠性挑战,OpenAI 联合 AMD、博通、英特尔、微软及英伟达等科技巨头,正式推出并开源了多路径可靠连接协议。该协议已通过开放计算项目(OCP)向全行业开放,旨在从网络底层提升超大规模计算集群的性能与韧性。

OpenAI 联合芯片巨头推出 MRC 协议

大规模AI训练通常需要连接数万甚至数十万颗GPU协同工作,传统网络架构在扩展性、功耗和故障恢复方面面临瓶颈。MRC协议通过采用创新的多平面网络设计,将传统的单一高速链路拆分为众多并行小链路,从而仅需两层交换机即可连接约13.1万块GPU。相比传统的三层或四层架构,这种设计不仅大幅降低了网络复杂度和功耗,还因路径的多样性而增强了网络的容错能力。

OpenAI 联合芯片巨头推出 MRC 协议

在数据传输技术上,MRC协议引入了两项核心突破。首先是自适应数据包喷淋技术,它将单个计算任务的数据包分散到数百条甚至更多路径上进行并行传输。即便数据包因路径差异而乱序到达,接收端的GPU也能依据内存地址信息进行正确重组,从而有效避免了核心网络链路的拥塞。其次是SRv6源路由机制,它摒弃了传统网络中动态、复杂的BGP等路由协议,改由数据发送端直接指定传输路径,网络中的交换机仅执行简单的静态转发。这一机制将网络在发生故障后的恢复时间,从传统的秒级大幅缩短至微秒级,基本消除了因网络动态路由行为对长时间AI训练任务造成的中断。

OpenAI 联合芯片巨头推出 MRC 协议
OpenAI 联合芯片巨头推出 MRC 协议

据ITCOW牛新网了解,MRC协议目前已在英伟达GB200超级计算机及甲骨文云基础设施(OCI)等多个大型站点得到实际部署与应用。在真实的模型训练场景中测试表明,即使发生链路抖动或交换机重启等网络故障,基于MRC的网络也能在不中断训练任务的情况下自动、快速地绕过故障点,确保了庞大计算集群的长期稳定运行。这项由行业头部企业联合推动的技术标准,有望为下一代AI算力基础设施的网络互联提供关键解决方案。

OpenAI 联合芯片巨头推出 MRC 协议