Há muito que o mundo sofre com a DRAM.

Atualmente, os centros de dados enfrentam uma nova crise — não por falta de capacidade de computação, mas sim porque a memória é demasiado cara.

Nos últimos anos, com a rápida expansão em escala de operações de IA como inferência de grandes modelos, bases de dados em memória e computação de alto desempenho, os centros de dados estão a ser levados ao ponto crítico em termos de recursos de memória. A DRAM, que outrora era um componente padrão dos servidores, tornou-se agora o recurso de infraestrutura mais caro e escasso, com aumentos de preços e rigidez na oferta a tornarem-se fatores-chave que condicionam o ritmo de implementação da capacidade de computação de IA.

De acordo com dados de monitorização da Counterpoint Research, o preço da memória DIMM de 64 GB aumentou 3,5 vezes entre o terceiro trimestre de 2025 e o primeiro trimestre de 2026, e a tendência de alta ainda não atingiu o pico — estima-se que, até ao terceiro trimestre de 2026, a acumulação total atinja 5 vezes.

Os dados da TrendForce são ainda mais diretos: no primeiro trimestre de 2026, o aumento trimestral do preço contratual da DRAM foi de 93% a 98%, impulsionando um crescimento trimestral da receita global da indústria de DRAM de 81%, para 97 mil milhões de dólares. No segundo trimestre, a tendência de alta ainda não parou, com o preço contratual a prever-se que aumente mais 58% a 63%.

Os sinais do mercado à vista são ainda mais diretos: o preço unitário atual da DDR5 RDIMM de nível servidor varia entre 27 e 37 dólares por GB, e apenas para construir um pool de memória de 12 TB, o custo de aquisição de hardware DRAM puro aproxima-se dos 500 mil dólares.

Crise da DRAM, explosão total

A raiz desta vaga de aumentos de preços reside na contínua erosão da capacidade de produção de DRAM pelo HBM.

De acordo com dados divulgados, com o aumento explosivo da procura por memória de alta largura de banda para treino e inferência de IA, a percentagem de HBM na capacidade de produção de wafers de DRAM subiu de 2% em 2020 para uma estimativa de 25% em 2026. As três principais fabricantes — Samsung, SK Hynix e Micron — estão a direcionar a sua capacidade de produção de alta qualidade para o HBM, de maior margem. A proporção de wafers de HBM no total de wafers de DRAM entre 2025 e 2027 é de 18%, 22% e cerca de 30%, respetivamente. Um wafer de HBM consome cerca de três vezes a capacidade de produção de DDR5. As três principais fabricantes estão a reduzir ativamente as encomendas de baixa margem para telemóveis e PCs, direcionando toda a capacidade para a IA. Considerando ainda que os grandes fornecedores de cloud em hiperescala estão a bloquear antecipadamente a produção futura de wafers com contratos de longo prazo de vários anos, a oferta de DRAM padrão para o setor de servidores é ainda mais comprimida.

E a rigidez do lado da oferta determina que é difícil aliviar a escassez a curto prazo.

Os processos avançados de DRAM dependem fortemente de máquinas de litografia EUV, com um preço unitário de cerca de 200 milhões de dólares. O investimento numa fábrica de wafers moderna ascende frequentemente a dezenas de milhares de milhões de dólares. Mesmo que tudo corra bem, o ciclo de construção demora vários anos. A velocidade de expansão da capacidade está muito longe de acompanhar o crescimento da procura de IA.

A Jefferies prevê que, excluindo o impacto dos fabricantes nacionais, o crescimento global da oferta de bits de armazenamento em 2026 será de apenas 7% a 8%. A DRAM e a NAND combinadas poderão ter um défice de oferta de cerca de 150 a 200 mil wafers por mês. A Micron Technology afirmou no seu relatório de resultados do terceiro trimestre fiscal de 2026 que, mesmo que a oferta da indústria possa melhorar gradualmente em 2028, ainda é difícil determinar quando a oferta de armazenamento conseguirá acompanhar a procura em crescimento contínuo.

Além disso, a pressão já se espalhou dos centros de dados para o consumo.

Asha Sharma, CEO da Xbox, afirmou publicamente que os custos de memória aumentaram cerca de cinco vezes nos últimos dois anos, o que impediu diretamente a empresa de produzir consolas de jogos suficientes para satisfazer a procura do mercado. A Apple também anunciou aumentos de preços para o iPhone, Mac, iPad e outros produtos.

A equipa do analista Shawn Kim da Morgan Stanley afirmou diretamente que o aumento dos preços da memória e a escassez de oferta estão a transformar-se num risco global para a economia digital, "desde o gargalo da infraestrutura de IA até às margens de lucro do hardware, acessibilidade dos dispositivos, custos de cloud, inflação e até mesmo ao nível das políticas".

Na lista de materiais dos servidores, a mudança na proporção da DRAM é ainda mais reveladora. Em 2023, a DRAM representava cerca de 50% do custo total de um servidor; em meados de 2026, esta proporção subiu para 60% a 90%, com uma média de cerca de 75%. O preço da CPU não caiu, mas, em comparação com o aumento vertiginoso dos preços da memória, o aumento da CPU parece insignificante.

Mais irónico ainda é que, apesar de se gastar muito dinheiro a adquirir memória, a sua taxa de utilização real não é elevada — dados de testes de fabricantes de hiperescala como a Meta mostram que, em média, apenas cerca de metade da capacidade da memória dos centros de dados suporta "dados quentes" ativos, enquanto uma grande quantidade de dados frios ocupa recursos de DRAM caros durante longos períodos.

Face ao custo e à escassez da DRAM, os players da indústria começaram a explorar novos caminhos — já não se limitam a acumular hardware, mas utilizam meios tecnológicos para reduzir a dependência da DRAM.

AMD: Agendamento preditivo com IA, transformando flash em memória "invisível"

A AMD optou pela via de software mais leve.

Em junho de 2026, a AMD anunciou a aquisição da MEXT, uma empresa de otimização de memória, com o objetivo central de introduzir uma tecnologia de hierarquização de memória baseada em IA, movendo dados frios da DRAM cara para NAND flash de baixo custo, expandindo assim a capacidade efetiva de memória a baixo custo.

Segundo informações, a MEXT foi fundada em 2023, e a sua equipa fundadora tem uma história notável — o cofundador e CEO Gary Smerdon foi anteriormente Chief Strategy and Product Officer da Fusion-io, um pioneiro na comercialização em larga escala de armazenamento flash. Há mais de dez anos, a Apple e a Meta Platforms eram seus principais clientes.

A MEXT, para resolver o gargalo da eficiência da memória, lançou uma tecnologia de hierarquização de memória baseada em IA. Esta tecnologia pode transferir dados de acesso pouco frequente da DRAM cara para NAND flash, cujo custo por unidade de capacidade é muito inferior, sem afetar o funcionamento das aplicações.

O produto principal da MEXT é o Predictive Memory Engine, uma solução de hierarquização de memória totalmente baseada em software: monitoriza continuamente os padrões de acesso das aplicações ao nível da página de memória, movendo automaticamente os dados frios de acesso pouco frequente para NAND flash — o custo por bit do flash é apenas cerca de 1/55 do da DRAM; simultaneamente, através de um modelo de IA que aprende os padrões de acesso da carga de trabalho, prevê as páginas de dados que serão chamadas em seguida, pré-buscando-as ativamente de volta para a DRAM antes que a aplicação faça o pedido, permitindo que o software leia os dados como se estivesse a aceder diretamente à memória principal, garantindo assim que o desempenho não é afetado.

Fonte: Nextplat

Todo o mecanismo é completamente transparente para o sistema operativo e para as aplicações de nível superior, não exigindo qualquer modificação do código de negócio, nem hardware dedicado adicional, podendo ser implementado em minutos.

Os dados oficiais mostram que esta solução pode aumentar a capacidade efetiva de memória do sistema em 2 a 4 vezes, reduzindo o custo total da infraestrutura em cerca de 50%. Em cenários típicos como bases de dados de grafos Neo4j, simulação EDA e renderização de filmes, uma configuração com uma proporção de 1:1 entre DRAM e flash pode atingir cerca de 95% do throughput de uma configuração de apenas DRAM, mas com um custo significativamente reduzido.

A MEXT realizou anteriormente testes comparativos em servidores Dell e instâncias cloud AWS:

Comparação entre servidores Dell/AWS com e sem memória expandida MEXT (Fonte: Nextplat)

Quando a extensão de memória MEXT está a ser utilizada, o desempenho e a relação custo-benefício da base de dados de grafos Neo4j com proporções de memória e flash de 1:1 e 1:3:

Fonte: Nextplat

Embora a abordagem da MEXT não seja revolucionária — os conceitos de hierarquização de memória e de mover dados frios para meios de armazenamento mais baratos já existem há bastante tempo —, as tecnologias anteriores não conseguiram ser implementadas em grande escala nos centros de dados, principalmente devido à precisão insuficiente dos algoritmos de previsão. Quando a previsão falha, e o programa precisa de dados que estão no flash, a latência torna-se evidente, e a perda de desempenho é inaceitável.

O avanço da MEXT reside na utilização de modelos de IA para esta tarefa. O seu Predictive Memory Engine analisa continuamente os padrões de acesso à memória, utilizando IA para determinar quais as páginas de dados que têm maior probabilidade de serem utilizadas a seguir, e, antes que a aplicação faça o pedido, move ativamente os dados do flash de volta para a DRAM.

Para a AMD, esta aquisição preenche uma peça-chave na sua capacidade de pilha completa. Para além dos CPUs EPYC, GPUs Instinct e da stack de software ROCm, a camada de eficiência de memória trazida pela MEXT permite à AMD oferecer aos clientes uma solução completa, desde o chip até à gestão do fluxo de dados, ajudando os clientes a reduzir o custo total de propriedade e a diminuir a inatividade das GPUs à espera de dados, ao mesmo tempo que fortalece a sua competitividade no mercado de infraestruturas de IA.

No dia do anúncio da aquisição, as ações da AMD subiram quase 7% durante a sessão, com o mercado a mostrar a sua aprovação a esta via.

Claro que é preciso dizer que o grau de implementação final da tecnologia da MEXT nos produtos de centro de dados da AMD ainda terá de ser testado pelo tempo. A diferença física de latência entre NAND flash e DRAM é objetiva, e se a previsão de IA ao nível do software conseguirá realmente colmatar este fosso, só o tempo e a implementação em grande escala o dirão.

Apple: Modelos de grande escala no dispositivo, "guardar" o modelo na flash

Enquanto os centros de data sofrem com o custo da DRAM, o consumidor enfrenta as mesmas restrições — os terminais como os telemóveis têm capacidade de DRAM muito limitada, mas têm de suportar as necessidades de inferência de modelos de grande escala no dispositivo. A resposta da Apple é fazer com que os modelos de grande escala residam permanentemente na flash, sendo carregados para a memória conforme necessário.

O mais recente AFM 3 Core Advanced da Apple é um modelo de grande escala no dispositivo com 20 mil milhões de parâmetros. Se fosse carregado na totalidade na DRAM da forma tradicional, excederia em muito o limite de memória dos dispositivos de consumo. A Apple resolveu este problema através de uma arquitetura de ativação esparsa: o modelo completo é armazenado na NAND flash; durante a inferência, não são carregados todos os pesos, mas sim, com base no prompt de entrada, são selecionados de uma só vez os módulos especialistas necessários para essa inferência, carregando apenas o conjunto de trabalho de 1 a 4 mil milhões de parâmetros para a DRAM.

Diagrama da arquitetura do modelo AFM 3 Core Advanced

Ao contrário dos modelos MoE tradicionais, que alternam entre especialistas a cada token, resultando em frequente movimentação de dados, a Apple adota um mecanismo de roteamento ao nível do prompt, combinado com uma elevada proporção de especialistas partilhados que residem permanentemente na DRAM, reduzindo significativamente o número de trocas entre flash e memória, minimizando a latência de carregamento. Combinado com otimizações como poda ao nível das instruções (IFP) e simplificação das camadas do Transformer, o modelo de 20 mil milhões de parâmetros acaba por ter um pico de ocupação de DRAM entre 2 GB e 8 GB, equilibrando ainda mais a ocupação de memória e a eficiência computacional, resolvendo eficazmente o problema da elevada ocupação de DRAM dos MoE quando implementados no dispositivo, permitindo que este funcione de forma fluida em dispositivos terminais como o iPhone, realizando assim a inferência no dispositivo de "grande modelo, pequena memória".

Esta arquitetura não é fruto de um trabalho de última hora.

Na verdade, já em 2024, a equipa de investigação da Apple publicou o artigo "LLM in a Flash", validando sistematicamente a via técnica de armazenar os parâmetros de grandes modelos na flash e agendá-los conforme necessário, reduzindo os custos de computação na cloud ao mesmo tempo que fornece suporte de arquitetura de memória viável para aplicações de IA no dispositivo, conseguindo velocidades de inferência 4 a 5 vezes e 20 a 25 vezes mais rápidas do que o carregamento ingénuo, respetivamente em CPU e GPU.

Quando o aumento do preço da DRAM se propaga do lado da indústria para a eletrónica de consumo, esta solução suporta a experiência de IA no dispositivo e reduz a dependência do dispositivo de grandes capacidades de DRAM.

Globalmente, as duas vias da AMD e da Apple evoluem simultaneamente para os centros de dados e para o dispositivo, mas apontam para a mesma conclusão: a hierarquia de memória para inferência de IA está a ser reestruturada, com as KV caches de baixa frequência, os pesos dos modelos e os dados do dispositivo a serem progressivamente movidos do caro HBM/DRAM para a camada NAND Flash/SSD, formando uma arquitetura de armazenamento em múltiplos níveis.

Esta mudança de arquitetura está a criar efeitos de transmissão em múltiplos níveis ao longo da cadeia industrial. De acordo com a Citrini Research, o nível mais diretamente beneficiado é o dos fabricantes de NAND.

Marvell: Compressão de hardware + CXL, expandindo a memória física

Se a AMD e a Apple seguem vias de software e otimização de arquitetura, a Marvell optou por uma rutura ao nível do hardware, apoiando-se no protocolo de interconexão de alta velocidade CXL, utilizando tecnologia de compressão inline de hardware para aumentar diretamente a capacidade equivalente da DRAM física.

Em junho de 2026, a Marvell lançou a série de controladores CXL Structera — Structera X (controlador de expansão de memória) e Structera A (acelerador de memória próxima). Ambos os chips incorporam o módulo de compressão de hardware CDB (Compression-Decompression Block) desenvolvido internamente.

Segundo informações, quando os dados são escritos na DRAM, o módulo CDB comprime-os em tempo real através de um algoritmo de compressão sem perdas LZ4 personalizado; quando são lidos, a descompressão é feita simultaneamente. Todo o processo é realizado de forma independente no caminho da memória, sem consumir capacidade de computação do CPU do anfitrião, sendo completamente transparente para as aplicações de nível superior. Dependendo do tipo de dados, 1 GB de DRAM física pode proporcionar uma capacidade lógica equivalente de 2 a 3,64 vezes — em cenários de bases de dados mistas, a taxa de compressão média pode atingir 3,64:1, o que equivale a satisfazer as mesmas necessidades de negócio com menos de um terço da memória física.

Para além disso, esta solução oferece ainda duas vantagens adicionais de redução de custos: a primeira é a reutilização de memória antiga; o controlador Structera X suporta a ligação de memória DDR4, permitindo integrar memória DDR4 desativada num pool de memória CXL, reduzindo a necessidade de adquirir nova DDR5 cara; a segunda é a partilha de memória, quebrando a exclusividade do CPU sobre a memória através do protocolo CXL, permitindo que vários servidores partilhem recursos de memória, absorvendo a capacidade ociosa do sistema.

Com o preço atual da DDR5 no mercado à vista de 27 a 37 dólares por GB, o custo apenas de hardware DRAM para um pool de memória de 12 TB aproxima-se dos 500 mil dólares; com uma taxa de compressão de 3 vezes, a quantidade de DRAM física a adquirir pode ser reduzida em dois terços, poupando mais de 300 mil dólares por pool.

Sandisk: Colocar NAND por baixo da GPU

A solução da Sandisk é ainda mais radical — reestruturar a arquitetura de memória dos chips de IA a nível do encapsulamento.

A Sandisk está a colaborar com a SK Hynix para promover a normalização da High Bandwidth Flash (HBF), tentando aproximar ainda mais a NAND flash do núcleo de computação, criando um novo nível de armazenamento entre o HBM e o SSD.

A solução patentada da Sandisk propõe uma arquitetura de "NAND sob a GPU": empilhar NAND flash de alta capacidade diretamente por baixo da GPU ou do acelerador de IA, rodeada por pilhas de HBM, encurtando significativamente a distância de transmissão de dados e aumentando a largura de banda de acesso ao flash. De acordo com o planeamento, a HBF será fisicamente compatível com o HBM4, com uma capacidade 8 a 16 vezes superior à do HBM do mesmo volume, e com um custo significativamente mais baixo, destinando-se principalmente a cenários intensivos em leitura, como inferência de contexto longo, cache KV, carregamento contínuo de pesos de modelos, etc.

Esta tecnologia, designada HBF (High Bandwidth Flash), posiciona-se entre o HBM e o SSD. Se o HBM é comparado a um "livro de referência" aberto em cima da mesa, a HBF baseada em NAND é como uma "estante" ao lado da GPU. O HBM lida com dados que precisam de resposta imediata, enquanto a NAND por baixo da GPU armazena dados maiores e faz leituras e escritas repetidas.

O objetivo da Sandisk é desenvolver uma HBF com largura de banda próxima da do HBM, oferecendo 8 a 16 vezes a capacidade do HBM a um custo semelhante. Em fevereiro de 2026, a Sandisk e a SK Hynix lançaram formalmente a aliança de normalização do padrão HBF. A SK Hynix contribui com a sua experiência em empilhamento, encapsulamento e tecnologia de interposição acumulada no HBM, enquanto a Sandisk traz a sua capacidade em NAND e design de flash. Ambas as partes planeiam lançar as primeiras amostras de HBF na segunda metade de 2026, com aplicação em dispositivos de inferência de IA no início de 2027. O objetivo é construir uma arquitetura de memória de três níveis: HBM para computação instantânea de latência ultrabaixa, HBF para dados de grande capacidade e alta taxa de transferência com leituras e escritas repetidas, e SSD para armazenamento frio, cada nível com a sua função específica.

Claro, a HBF ainda precisa de ultrapassar vários obstáculos antes de chegar à comercialização em larga escala. A elevada densidade térmica resultante do empilhamento de chips de computação com NAND, os desafios de rendimento da ligação híbrida e do roteamento complexo, bem como o ecossistema de software para agendamento hierárquico de dados quentes e frios, tudo isto necessita de tempo para ser aperfeiçoado.

De acordo com a Shinhan Securities da Coreia, estima-se que o mercado de HBF se forme em 2027, crescendo até aos 12 mil milhões de dólares em 2030.

Para os fornecedores de cloud com dezenas de milhares de nós, isto significa uma enorme otimização das despesas de capital. Atualmente, o Structera é o primeiro controlador CXL com compressão inline de hardware do mundo a ser produzido em massa, e as soluções técnicas relacionadas já foram submetidas ao projeto de normalização OCP (Open Compute Project), com o âmbito de adaptação a expandir-se no futuro.

Lição do passado: O caminho inacabado do 3D XPoint

A falar a verdade, usar flash para expandir a memória principal não é novidade.

Já em 2015, a Intel e a Micron lançaram em conjunto a tecnologia de armazenamento 3D XPoint, cuja visão acertava precisamente no ponto fraco da indústria atual — criar um novo meio de armazenamento com desempenho entre a DRAM e a NAND flash, suportando endereçamento por byte, com custo próximo do flash, construindo um novo nível entre a memória e o armazenamento tradicional.

Infelizmente, o 3D XPoint acabou por não cumprir a promessa inicial.

O atraso no desenvolvimento do processo de fabrico fez com que o seu custo igualasse o da DRAM, enquanto o desempenho era apenas algumas vezes mais rápido do que o flash comum; além disso, a estratégia fechada da Intel de o associar exclusivamente aos seus processadores Xeon impediu-o de entrar no mercado mainstream. O projeto acabou por ser cancelado, e o negócio de flash da Intel foi vendido à SK Hynix. Esta tecnologia, que prometia tanto, tornou-se uma nota triste na história do armazenamento.

Se a Intel não tivesse abandonado o 3D XPoint, quão lucrativo seria hoje? Infelizmente, a história não tem "ses".

Além disso, é provável que, nos próximos tempos, as startups nacionais que trabalham em soluções de computação integrada com memória e pool de memória também recebam mais atenção. Afinal, num contexto de preços elevados da DRAM e de oferta comprimida, quem conseguir apresentar uma solução de otimização de memória verdadeiramente fiável poderá obter o próximo bilhete de entrada no mercado de capitais.

Nota final

Desde o fracasso do 3D XPoint até aos múltiplos caminhos paralelos de hoje, a exploração da eficiência da memória pela indústria de armazenamento nunca parou.

A AMD utiliza a previsão de IA para agendar dados quentes e frios; a Apple utiliza ativação esparsa e armazenamento em flash para comprimir a ocupação de memória no dispositivo; a Marvell utiliza compressão de hardware para fazer a memória física render mais; a Sandisk utiliza empilhamento 3D para colocar a NAND debaixo da GPU — os caminhos técnicos das quatro empresas são diferentes, mas apontam para a mesma direção: a hierarquia de memória para inferência de IA está a ser reestruturada — os dados quentes permanecem na DRAM e no HBM para garantir o desempenho; os dados mornos e frios descem gradualmente para a camada flash para suportar a capacidade; vários meios coordenam-se para equilibrar o desempenho e o custo.

O custo elevado da DRAM está a forçar toda a indústria a "subir a montanha". Mas é precisamente esta pressão que está a gerar uma série de inovações tecnológicas impressionantes.

É inegável que o fosso físico de latência entre a flash e a DRAM existe sempre, e o desempenho real de várias soluções ainda precisa de ser verificado através de implementações em larga escala. Mas uma coisa é certa: a era de simplesmente acumular DRAM para resolver problemas está a passar, e um sistema de memória mais eficiente e mais hierarquizado é a nova direção para a indústria.

Fonte: Observação da Indústria de Semicondutores

Aviso de risco e isenção de responsabilidade

        O mercado tem riscos, o investimento requer cautela. Este artigo não constitui aconselhamento de investimento pessoal e também não considera os objetivos de investimento, situação financeira ou necessidades específicas de utilizadores individuais. Os utilizadores devem considerar se as opiniões, pontos de vista ou conclusões deste artigo se adequam à sua situação específica. O investimento com base neste artigo é da responsabilidade do próprio.
DRAM1,66%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado