A OpenAI publica o protocolo de rede do supercomputador MRC! Em parceria com a Nvidia, a AMD e a Microsoft para criar a infraestrutura base do Stargate

A OpenAI anunciou o lançamento de um novo protocolo de rede para “supercomputadores” de IA, o MRC (Multipath Reliable Connection), e já disponibilizou a sua tecnologia em código aberto através do Open Compute Project (OCP). Esta tecnologia foi desenvolvida em conjunto pela OpenAI e por empresas como a AMD, a Microsoft, a NVIDIA, a Intel, a Broadcom, entre outras, com o objetivo de resolver o gargalo de transmissão de dados entre GPUs em clusters de treino de IA de escala muito elevada.

O verdadeiro gargalo do treino de IA é como as GPUs comunicam entre si

A OpenAI afirma que, à medida que o número de utilizadores semanais do ChatGPT já ultrapassou 900 milhões, os sistemas de IA estão a tornar-se progressivamente um serviço ao nível de infraestruturas. Para suportar as necessidades de treino e inferência dos próximos modelos, a OpenAI considera que não basta evoluir apenas os próprios modelos — é necessário redesenhar também a arquitetura de rede.

Num artigo técnico, a OpenAI refere que, durante o treino de grandes modelos de IA, um único passo de treino pode envolver trocas de dados entre GPUs em milhões de operações. Basta que uma das transmissões tenha uma latência elevada para que a sincronização do treino fique comprometida, levando a uma grande quantidade de GPUs ociosas.

E, à medida que a escala dos supercomputadores de IA continua a aumentar, problemas como congestionamento na rede, avarias em switches e jitter (variação da latência) tendem a amplificar-se rapidamente. A OpenAI considera que estes são também alguns dos maiores desafios técnicos do projeto de supercomputação Stargate.

No passado, a arquitetura de rede em centros de dados utilizava, na maioria dos casos, transmissão por um único caminho (single-path). Mas a principal mudança do MRC é permitir que a mesma informação possa ser distribuída simultaneamente por centenas de caminhos de transmissão.

O que é o MRC? OpenAI: fazer com que a rede de IA desvie automaticamente obstáculos

De acordo com a OpenAI e a AMD, o conceito central do MRC é:

Dividir os dados e enviá-los por múltiplos caminhos em simultâneo

Desviar automaticamente de falhas a nível de microssegundos

Reduzir a latência causada por congestionamento da rede

Manter as GPUs em operação sincronizada

A AMD descreve que as redes tradicionais de IA são como autoestradas que seguem apenas uma via: quando há congestionamento ou um acidente, todo o progresso é afetado; já o MRC é como um sistema de tráfego inteligente com capacidade de desvio imediato. A AMD chegou mesmo a afirmar: «o verdadeiro gargalo da escalabilidade da IA já não são as GPUs e a CPU, mas sim a rede».

Porque é que a OpenAI quer desenhar a sua própria protocolo de rede?

O sinal desta vez é muito claro: a competição em IA já não é apenas uma disputa de modelos, mas sim uma disputa pela “infraestrutura” completa do supercomputador. No artigo, a OpenAI refere que, antes do surgimento do Stargate, eles e os seus parceiros já tinham mantido em conjunto três gerações de supercomputadores de IA. Com base nessas experiências, a OpenAI concluiu que, para usar a capacidade de computação de forma eficaz numa escala como a do Stargate, é necessário reduzir significativamente a complexidade em toda a stack — incluindo a camada de rede.

Em outras palavras, a concorrência dos Frontier Model no futuro já não se vai resumir a quem tem o modelo mais forte, mas sim a quem consegue fazer com que dezenas de milhares, ou até milhões, de GPUs funcionem em sincronismo com maior eficiência.

Por trás do MRC está o Stargate: o plano “de Manhattan” da OpenAI

O contexto do MRC é, na verdade, o Stargate LLC. O Stargate é um grande projeto de infraestruturas de IA promovido pela OpenAI, SoftBank Group, Oracle Corporation e MGX, com o objetivo inicial de investir até 500 mil milhões de dólares em infraestruturas de IA nos EUA. A OpenAI indica que já ultrapassaram a meta faseada original de 10GW e que, nos últimos 90 dias, foi adicionada mais de 3GW de capacidade de infraestruturas de IA.

O supercomputador Stargate, localizado em Abilene, Texas, é um dos principais locais de implementação do MRC. A OpenAI salienta que o MRC foi integrado na mais recente interface de rede de 800Gb/s e que está a operar em cenários reais de treinos em larga escala.

Este artigo publicado pela OpenAI sobre o protocolo de rede do supercomputador MRC! Em conjunto com a NVIDIA, a AMD e a Microsoft para criar infraestruturas do Stargate foi publicado pela primeira vez em Cadeia Notícia ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Sonhos com o Claude da Anthropic: os agentes auto-organizam memórias entre tarefas, eliminam duplicados e contradições

A Anthropic, na conferência Code with Claude, anunciou os Dreams, permitindo que os Claude Managed Agents organizem automaticamente memórias entre múltiplas sessões de conversa, eliminem duplicados e contradições, e atualizem entradas desatualizadas, produzindo uma base de memórias finalizável e auditável; o limite de entrada é de 100 sessões e 4.096 caracteres, com execução assíncrona, concluída entre alguns minutos e algumas dezenas de minutos, e com suporte para observação por streaming. A pré-visualização da investigação requer candidatura; por agora, apenas suporta claude-opus-4-7 e claude-sonnet-4-6, com data de lançamento oficial ainda por definir.

ChainNewsAbmedia1h atrás

A Anthropic negocia com a SpaceX a capacidade de computação: garante Colossus 1 com 22 mil GPUs, e o Claude removeu os limites

A Anthropic anunciou uma parceria de capacidade computacional com a SpaceX para o centro de dados Colossus 1, com planos para utilizar mais de 220 mil GPUs Nvidia e mais de 300MW de capacidade. A implementação deverá ficar concluída no prazo de um mês para ser disponibilizada ao uso da Anthropic, melhorando o desempenho e a experiência do Claude e do Code. Em paralelo, foram alargados os limites de utilização a cada 5 horas para Pro/Max/Team/Enterprise, foi removido o limite durante os picos e foi aumentada a taxa da API do Opus. A expansão das infraestruturas na Ásia e na Europa ocorre em simultâneo, e, no futuro, há ainda intenções para “computação de IA em órbita”, entre outras, embora ainda não haja contratos fechados.

ChainNewsAbmedia1h atrás

Engenheiro da Coinbase: os agentes de IA poderiam perturbar o modelo de publicidade na Web

Erik Reppel, engenheiro da Coinbase, afirmou que os agentes de inteligência artificial poderiam minar fundamentalmente o modelo de negócio da internet, dependente da publicidade. Segundo Reppel, a economia da Web depende fortemente das receitas de publicidade geradas a partir de utilizadores humanos, mas os agentes de IA contornam esse sistema

CryptoFrontier2h atrás

A Anthropic duplica os limites de taxa do Claude Code após garantir uma capacidade de 300 MW num acordo com a SpaceX

Segundo a Odaily, a Anthropic assinou um acordo com a SpaceX para aceder à capacidade total de computação do centro de dados Colossus 1, garantindo mais de 300 megawatts de nova capacidade e mais de 220.000 GPUs NVIDIA no prazo de um mês. A partir do momento, os limites de taxa de cinco horas do Claude Code para Pro,

GateNews2h atrás

Plataforma de recrutamento com IA, Ethos, conclui financiamento da Série A no valor de 22,75 milhões de dólares, liderado pela a16z, a 6 de maio

De acordo com a BlockBeats, a plataforma de recrutamento de IA sediada em Londres, Ethos, concluiu uma ronda de financiamento Série A no valor de 22,75 milhões de dólares em 6 de maio, com a Andreessen Horowitz (a16z) a liderar a ronda e a General Catalyst a participar. A plataforma utiliza IA para entrevistar candidatos e analisa

GateNews4h atrás
Comentar
0/400
Nenhum comentário