OpenAI 宣布推出全新 AI 超級电腦網路協议 MRC(Multipath Reliable Connection),並已透过 Open Compute Project(OCP)开源釋出。这項技術由 OpenAI 与 AMD、Microsoft、NVIDIA、Intel、Broadcom 等业者共同开发,目標是解決超大型 AI 訓練叢集在 GPU 之间的资料傳输瓶頸。
AI 訓練真正瓶頸是 GPU 之间如何溝通
OpenAI 表示,随著 ChatGPT 每週使用人數已超过 9 亿,AI 系统正逐漸成为基礎设施等級的服務。为了支撐下一代模型訓練与推論需求,OpenAI 认为不只模型本身需要进化,连網路架構都必須重新设计。
OpenAI 在技術文章中指出,大型 AI 模型訓練时,一次訓練步骤可能涉及數百万次 GPU 间资料交換。只要其中一个傳输延遲,就可能让整个訓練同步停滯,導致大量 GPU 閒置。
而当 AI 超級电腦規模越来越大,網路壅塞、交換器故障、延遲抖动(jitter)等问題会急遽放大。OpenAI 认为,这也是 Stargate 超級电腦计畫中最核心的技術挑戰之一。
过去资料中心的網路架構,多數採用單一路徑傳输(single-path)。但 MRC 最大的改變,是让同一份资料能同时分散到數百條路徑傳输。
MRC 是什麼?OpenAI:让 AI 網路變自动闪避障礙物
根據 OpenAI 与 AMD 的说法,MRC 的核心概念是:
將资料拆散,同时走多條路徑
在微秒級別自动繞过故障
減少網路壅塞造成的延遲
让 GPU 保持同步运作
AMD 形容,傳统 AI 網路像是高速公路只走單一路線,一旦塞车或事故就会影響整體进度;MRC 則像是具備即时改道能力的智慧交通系统。AMD 甚至直言:「AI 規模化真正的瓶頸已经不是 GPU 与 CPU,而是網路。」
为什麼 OpenAI 要自己设计網路協议?
这次 OpenAI 釋出的訊號非常明確:AI 競爭已经不只是模型競爭,而是整套「超級电腦基礎设施」競爭。OpenAI 在文章中提到,在 Stargate 出现之前,他們与合作夥伴已共同維護三代 AI 超級电腦。这些经验让 OpenAI 得出一个結論:若想在 Stargate 規模下有效使用算力,整个 stack 都必須大幅降低複雜度。其中就包含網路層。
也就是说,未来 Frontier Model 的競爭,不再只是誰有更強模型,而是誰能更有效率地让數十万、甚至數百万 GPU 同步运作。
MRC 背后是 Stargate:OpenAI 的曼哈頓计畫
MRC 的背景,其实是 Stargate LLC。Stargate 是 OpenAI、SoftBank Group、Oracle Corporation 与 MGX 推动的大型 AI 基礎设施计畫,最初目標是在美国投资高达 5,000 亿美元 AI 基礎设施。OpenAI 表示,目前已超过原本 10GW 的階段性目標,且最近 90 天新增超过 3GW AI 基礎设施容量。
其中位於德州 Abilene 的 Stargate 超級电腦,正是 MRC 主要部署场域之一。OpenAI 指出,MRC 已整合进最新 800Gb/s 網路介面,並在实际大型訓練叢集中运行。
这篇文章 OpenAI 公布 MRC 超級电腦網路協议!攜手輝达、AMD、微软打造 Stargate 基礎设施 最早出现於 链新聞 ABMedia。
相关文章