OpenAI mengumumkan peluncuran protokol jaringan superkomputer AI terbaru, MRC (Multipath Reliable Connection), dan telah merilisnya secara open source melalui Open Compute Project (OCP). Teknologi ini dikembangkan bersama oleh OpenAI dan AMD, Microsoft, NVIDIA, Intel, Broadcom, dan lainnya, dengan tujuan mengatasi hambatan pengiriman data antargrafis (GPU) pada klaster pelatihan AI berskala sangat besar.
Hambatan sebenarnya dalam pelatihan AI adalah bagaimana GPU saling berkomunikasi
OpenAI menyatakan bahwa, seiring jumlah pengguna ChatGPT mingguan sudah melewati 900 juta, sistem AI secara bertahap menjadi layanan setara infrastruktur dasar. Untuk mendukung kebutuhan pelatihan dan inferensi model generasi berikutnya, OpenAI berpendapat bahwa tidak hanya modelnya yang perlu berevolusi, tetapi arsitektur jaringan juga harus didesain ulang.
Dalam artikel teknisnya, OpenAI menjelaskan bahwa saat pelatihan model AI skala besar, satu langkah pelatihan dapat melibatkan pertukaran data di antara GPU hingga jutaan kali. Jika satu saja penundaan transmisi terjadi, seluruh pelatihan bisa berhenti tersinkron, yang menyebabkan banyak GPU menjadi menganggur.
Ketika skala superkomputer AI terus membesar, masalah seperti kemacetan jaringan, kegagalan switch, serta jitter (variasi latensi) akan berkembang dengan cepat. OpenAI menilai ini sebagai salah satu tantangan teknis paling inti dalam rencana superkomputer Stargate.
Dalam arsitektur jaringan pusat data sebelumnya, sebagian besar menggunakan transmisi satu jalur (single-path). Namun perubahan terbesar yang dibawa MRC adalah membuat data yang sama dapat didistribusikan sekaligus ke ratusan jalur transmisi.
Apa itu MRC? OpenAI: Membuat jaringan AI otomatis menghindari rintangan
Menurut OpenAI dan AMD, konsep inti MRC adalah:
Memecah data, sekaligus menempuh beberapa jalur
Secara otomatis menghindari gangguan pada level mikrodetik
Mengurangi latensi akibat kemacetan jaringan
Agar GPU tetap berjalan sinkron
AMD menggambarkan bahwa jaringan AI tradisional seperti jalan tol yang hanya memakai satu jalur; jika macet atau terjadi kecelakaan, proses keseluruhan ikut terdampak. MRC, sebaliknya, seperti sistem transportasi pintar dengan kemampuan pengalihan rute secara real-time. AMD bahkan menyatakan secara tegas: “Hambatan sebenarnya saat penskalaan AI bukan lagi GPU dan CPU, melainkan jaringan.”
Mengapa OpenAI perlu merancang sendiri protokol jaringan?
Isyarat dari OpenAI kali ini sangat jelas: persaingan AI tidak lagi sekadar persaingan model, melainkan persaingan seluruh “infrastruktur superkomputer”. Dalam artikelnya, OpenAI menyebut bahwa sebelum Stargate hadir, mereka bersama mitra sudah memelihara tiga generasi superkomputer AI. Pengalaman ini membuat OpenAI menyimpulkan bahwa agar bisa memakai daya komputasi secara efektif pada skala Stargate, seluruh stack harus menurunkan kompleksitas secara besar-besaran. Termasuk lapisan jaringan.
Dengan kata lain, dalam kompetisi Frontier Model ke depan, tidak lagi soal siapa yang punya model lebih kuat, melainkan siapa yang mampu membuat puluhan ribu, bahkan jutaan GPU, berjalan sinkron secara lebih efisien.
MRC di balik Stargate: Rencana Manhattan OpenAI
Latar belakang MRC sebenarnya adalah Stargate LLC. Stargate adalah program infrastruktur AI skala besar yang didorong oleh OpenAI, SoftBank Group, Oracle Corporation, dan MGX, dengan target awal berinvestasi hingga 500 miliar dolar AS untuk infrastruktur AI di Amerika. OpenAI menyatakan bahwa mereka saat ini sudah melampaui target bertahap awal 10 GW, dan dalam 90 hari terakhir menambah lebih dari 3 GW kapasitas infrastruktur AI.
Superkomputer Stargate yang berlokasi di Abilene, Texas, merupakan salah satu lokasi utama penerapan MRC. OpenAI menyebutkan bahwa MRC sudah diintegrasikan ke antarmuka jaringan terbaru 800Gb/s, dan telah beroperasi dalam pelatihan skala besar di lapangan.
Artikel OpenAI yang mempublikasikan protokol jaringan superkomputer MRC! Berkolaborasi dengan NVIDIA, AMD, Microsoft untuk membangun infrastruktur Stargate, pertama kali muncul di 鏈新聞 ABMedia.
Artikel Terkait
Mimpi Claude dari Anthropic: Agent menyusun ulang ingatan secara otomatis di sela-sela pekerjaan, menghapus duplikasi, dan meniadakan konflik
Anthropic mengikat kemampuan komputasi dengan SpaceX: mengamankan seluruh Colossus 1 yaitu 220 ribu GPU, Claude menghapus batas kuota
Insinyur Coinbase: Agen AI Bisa Mengganggu Model Iklan Web
Anthropic Melipatgandakan Batas Kecepatan Claude Code Setelah Mengamankan Kapasitas 300MW dari Kesepakatan dengan SpaceX
Platform Rekrutmen Berbasis AI Ethos Menyelesaikan Pendanaan Seri A senilai $22,75 juta yang Dipimpin oleh a16z pada 6 Mei