A OpenAI divulga o protocolo de rede do supercomputador MRC! Em parceria com a Nvidia, AMD e a Microsoft para criar a infraestrutura do Stargate

ChainNewsAbmedia

A OpenAI anunciou o lançamento de um novo protocolo de rede para “supercomputador” de IA, o MRC (Multipath Reliable Connection), e já disponibilizou a tecnologia em código aberto via Open Compute Project (OCP). Essa tecnologia está sendo desenvolvida em conjunto pela OpenAI e por empresas como AMD, Microsoft, NVIDIA, Intel e Broadcom, com o objetivo de resolver gargalos na transmissão de dados entre GPUs em clusters de treinamento de IA em escala massiva.

O verdadeiro gargalo do treinamento de IA são as comunicações entre GPUs

A OpenAI afirma que, à medida que o número de usuários semanais do ChatGPT já ultrapassou 900 milhões, os sistemas de IA estão se tornando gradualmente serviços em nível de infraestrutura. Para sustentar as necessidades de treinamento e inferência dos próximos modelos, a OpenAI acredita que não é apenas o modelo em si que precisa evoluir: a arquitetura de rede também deve ser redesenhada.

Em artigo técnico, a OpenAI destaca que, no treinamento de grandes modelos de IA, uma única etapa de treinamento pode envolver trocas de dados entre GPUs em dezenas de milhões de vezes. Basta que uma das transmissões tenha latência para que todo o treinamento perca sincronia, levando a uma grande quantidade de GPUs ociosas.

E, quando a escala dos supercomputadores de IA cresce, problemas como congestionamento na rede, falhas em switches e oscilação de latência (jitter) tendem a se amplificar rapidamente. A OpenAI considera que esse também é um dos maiores desafios técnicos do projeto do supercomputador Stargate.

No passado, a arquitetura de rede dos data centers, em sua maioria, adotava transmissão por um único caminho (single-path). Mas a maior mudança do MRC é permitir que os mesmos dados se distribuam simultaneamente por centenas de caminhos de transmissão.

O que é MRC? OpenAI: fazer a rede de IA “desviar automaticamente” de obstáculos

De acordo com a OpenAI e a AMD, o conceito central do MRC é:

Dividir os dados e enviá-los por múltiplos caminhos ao mesmo tempo

Desviar automaticamente de falhas em nível de microssegundos

Reduzir a latência causada por congestionamento de rede

Fazer as GPUs manterem a operação sincronizada

A AMD descreve que as redes tradicionais de IA são como rodovias de alta velocidade que seguem apenas uma rota: quando há congestionamento ou acidente, o progresso geral é afetado; o MRC, por sua vez, é como um sistema de tráfego inteligente com capacidade de desvio imediato. A AMD chegou a afirmar de forma direta: “o verdadeiro gargalo da IA em escala não é mais GPU e CPU, mas sim a rede”.

Por que a OpenAI precisa projetar seu próprio protocolo de rede?

O sinal desta vez da OpenAI é bem claro: a disputa em IA já não é apenas uma disputa de modelos, e sim uma disputa da “infraestrutura completa de supercomputador”. No artigo, a OpenAI menciona que, antes do surgimento do Stargate, eles já mantinham junto com parceiros três gerações de supercomputadores de IA. Essas experiências levaram a OpenAI a concluir que, para usar a capacidade de computação de forma eficiente na escala do Stargate, toda a stack precisa reduzir bastante a complexidade. Isso inclui a camada de rede.

Em outras palavras, na disputa dos Frontier Models no futuro, não será apenas sobre quem tem o modelo mais forte, e sim sobre quem consegue fazer dezenas de milhares — e até milhões — de GPUs operar em sincronia com mais eficiência.

O MRC por trás do Stargate: o plano de Manhattan da OpenAI

O pano de fundo do MRC é, na verdade, a Stargate LLC. A Stargate é um projeto de grande infraestrutura de IA impulsionado pela OpenAI, SoftBank Group, Oracle Corporation e MGX, com objetivo inicial de investir até US$ 500 bilhões em infraestrutura de IA nos Estados Unidos. A OpenAI diz que, no momento, já superou a meta provisória original de 10GW e que, nos últimos 90 dias, adicionou mais de 3GW de capacidade de infraestrutura de IA.

O supercomputador Stargate localizado em Abilene, no Texas, é um dos principais ambientes de implantação do MRC. A OpenAI aponta que o MRC já foi integrado à mais recente interface de rede de 800Gb/s e que está operando em um grande cluster de treinamento na prática.

Este artigo sobre a OpenAI anunciando o protocolo de rede do supercomputador MRC! Em parceria com a NVIDIA, AMD e Microsoft para construir a infraestrutura do Stargate — apareceu pela primeira vez em Cadeia de Notícias ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Sonhos do Claude, da Anthropic: agente se organiza para recuperar memórias entre tarefas, eliminando duplicidades e contradições

A Anthropic anunciou o Dreams no evento Code with Claude, permitindo que os Claude Managed Agents organizem automaticamente memórias entre várias conversas, eliminem duplicidades e contradições, atualizem itens desatualizados e gerem um banco de memórias pós-processado e auditável; o limite de entrada é de 100 sessions e 4.096 caracteres, com execução assíncrona, concluída em minutos a dezenas de minutos, e suporte à observação via streaming. A prévia da pesquisa precisa ser solicitada; por enquanto, apenas o claude-opus-4-7 e o claude-sonnet-4-6 são suportados, e o lançamento oficial ainda não tem data.

ChainNewsAbmedia22m atrás

A Anthropic se junta à SpaceX em poder de computação: conquista Colossus 1 inteira, com 220 mil GPUs, e o Claude remove limites

A Anthropic anunciou uma parceria de capacidade computacional com a SpaceX para o data center Colossus 1, com a ativação de mais de 220 mil GPUs Nvidia e capacidade de 300MW ou mais. A previsão é que tudo esteja implantado em até um mês para uso da Anthropic, melhorando o desempenho e a experiência do Claude e do Code. Em paralelo, foram relaxados os limites de uso a cada 5 horas para Pro/Max/Team/Enterprise, com a remoção das cotas de pico, e aumento da taxa da API Opus. A expansão também ocorre simultaneamente na infraestrutura na Ásia e na Europa, e no futuro há outras intenções, como “computação de IA em órbita”, mas ainda não há contrato.

ChainNewsAbmedia33m atrás

Engenheiro da Coinbase: agentes de IA podem interromper o modelo de publicidade na web

Erik Reppel, engenheiro da Coinbase, disse que agentes de inteligência artificial poderiam minar fundamentalmente o modelo de negócios da internet, que depende de publicidade. De acordo com Reppel, a economia da web depende fortemente da receita publicitária gerada a partir de usuários humanos, mas agentes de IA contornam esse sistema

CryptoFrontier1h atrás

A Anthropic dobra os limites de taxa do Claude Code após garantir capacidade de 300 MW em um acordo com a SpaceX

De acordo com a Odaily, a Anthropic assinou um acordo com a SpaceX para acessar toda a capacidade de computação do data center Colossus 1, garantindo mais de 300 megawatts de nova capacidade e mais de 220.000 GPUs NVIDIA no prazo de um mês. A partir de agora, os limites de taxa de cinco horas do Claude Code para o Pro,

GateNews1h atrás

Plataforma de recrutamento com IA, Ethos, conclui captação de US$ 22,75 milhões em Série A liderada pela a16z em 6 de maio

De acordo com a BlockBeats, a plataforma de recrutamento de IA com sede em Londres Ethos concluiu uma captação de US$ 22,75 milhões na Série A em 6 de maio, com Andreessen Horowitz (a16z) liderando a rodada e a General Catalyst participando. A plataforma usa IA para entrevistar candidatos e analisa

GateNews2h atrás

A OpenAI Lança Protocolo de Rede MRC com AMD, Intel e NVIDIA; Suporta 100.000+ GPUs

De acordo com o anúncio da OpenAI em 6 de maio, a empresa fez parceria com a AMD, Broadcom, Intel, Microsoft e NVIDIA para lançar o Multipath Reliable Connection (MRC), um protocolo de rede aberto para interconexão de GPUs em clusters de treinamento de IA em larga escala. O protocolo divide uma única transmissão de dados em múltiplos caminhos

GateNews3h atrás
Comentário
0/400
Sem comentários