A OpenAI anunciou o lançamento de um novo protocolo de rede para “supercomputadores” de IA, o MRC (Multipath Reliable Connection), e já disponibilizou a sua tecnologia em código aberto através do Open Compute Project (OCP). Esta tecnologia foi desenvolvida em conjunto pela OpenAI e por empresas como a AMD, a Microsoft, a NVIDIA, a Intel, a Broadcom, entre outras, com o objetivo de resolver o gargalo de transmissão de dados entre GPUs em clusters de treino de IA de escala muito elevada.
O verdadeiro gargalo do treino de IA é como as GPUs comunicam entre si
A OpenAI afirma que, à medida que o número de utilizadores semanais do ChatGPT já ultrapassou 900 milhões, os sistemas de IA estão a tornar-se progressivamente um serviço ao nível de infraestruturas. Para suportar as necessidades de treino e inferência dos próximos modelos, a OpenAI considera que não basta evoluir apenas os próprios modelos — é necessário redesenhar também a arquitetura de rede.
Num artigo técnico, a OpenAI refere que, durante o treino de grandes modelos de IA, um único passo de treino pode envolver trocas de dados entre GPUs em milhões de operações. Basta que uma das transmissões tenha uma latência elevada para que a sincronização do treino fique comprometida, levando a uma grande quantidade de GPUs ociosas.
E, à medida que a escala dos supercomputadores de IA continua a aumentar, problemas como congestionamento na rede, avarias em switches e jitter (variação da latência) tendem a amplificar-se rapidamente. A OpenAI considera que estes são também alguns dos maiores desafios técnicos do projeto de supercomputação Stargate.
No passado, a arquitetura de rede em centros de dados utilizava, na maioria dos casos, transmissão por um único caminho (single-path). Mas a principal mudança do MRC é permitir que a mesma informação possa ser distribuída simultaneamente por centenas de caminhos de transmissão.
O que é o MRC? OpenAI: fazer com que a rede de IA desvie automaticamente obstáculos
De acordo com a OpenAI e a AMD, o conceito central do MRC é:
Dividir os dados e enviá-los por múltiplos caminhos em simultâneo
Desviar automaticamente de falhas a nível de microssegundos
Reduzir a latência causada por congestionamento da rede
Manter as GPUs em operação sincronizada
A AMD descreve que as redes tradicionais de IA são como autoestradas que seguem apenas uma via: quando há congestionamento ou um acidente, todo o progresso é afetado; já o MRC é como um sistema de tráfego inteligente com capacidade de desvio imediato. A AMD chegou mesmo a afirmar: «o verdadeiro gargalo da escalabilidade da IA já não são as GPUs e a CPU, mas sim a rede».
Porque é que a OpenAI quer desenhar a sua própria protocolo de rede?
O sinal desta vez é muito claro: a competição em IA já não é apenas uma disputa de modelos, mas sim uma disputa pela “infraestrutura” completa do supercomputador. No artigo, a OpenAI refere que, antes do surgimento do Stargate, eles e os seus parceiros já tinham mantido em conjunto três gerações de supercomputadores de IA. Com base nessas experiências, a OpenAI concluiu que, para usar a capacidade de computação de forma eficaz numa escala como a do Stargate, é necessário reduzir significativamente a complexidade em toda a stack — incluindo a camada de rede.
Em outras palavras, a concorrência dos Frontier Model no futuro já não se vai resumir a quem tem o modelo mais forte, mas sim a quem consegue fazer com que dezenas de milhares, ou até milhões, de GPUs funcionem em sincronismo com maior eficiência.
Por trás do MRC está o Stargate: o plano “de Manhattan” da OpenAI
O contexto do MRC é, na verdade, o Stargate LLC. O Stargate é um grande projeto de infraestruturas de IA promovido pela OpenAI, SoftBank Group, Oracle Corporation e MGX, com o objetivo inicial de investir até 500 mil milhões de dólares em infraestruturas de IA nos EUA. A OpenAI indica que já ultrapassaram a meta faseada original de 10GW e que, nos últimos 90 dias, foi adicionada mais de 3GW de capacidade de infraestruturas de IA.
O supercomputador Stargate, localizado em Abilene, Texas, é um dos principais locais de implementação do MRC. A OpenAI salienta que o MRC foi integrado na mais recente interface de rede de 800Gb/s e que está a operar em cenários reais de treinos em larga escala.
Este artigo publicado pela OpenAI sobre o protocolo de rede do supercomputador MRC! Em conjunto com a NVIDIA, a AMD e a Microsoft para criar infraestruturas do Stargate foi publicado pela primeira vez em Cadeia Notícia ABMedia.
Related Articles
Sonhos com o Claude da Anthropic: os agentes auto-organizam memórias entre tarefas, eliminam duplicados e contradições
A Anthropic negocia com a SpaceX a capacidade de computação: garante Colossus 1 com 22 mil GPUs, e o Claude removeu os limites
Engenheiro da Coinbase: os agentes de IA poderiam perturbar o modelo de publicidade na Web
A Anthropic duplica os limites de taxa do Claude Code após garantir uma capacidade de 300 MW num acordo com a SpaceX
Plataforma de recrutamento com IA, Ethos, conclui financiamento da Série A no valor de 22,75 milhões de dólares, liderado pela a16z, a 6 de maio