A corrida de chips de IA nos últimos dois anos quase toda se concentrou em HBM, mas, à medida que as aplicações de IA saem do treinamento de modelos e avançam para inferência em larga escala, o próximo gargalo de oferta talvez deixe de ser apenas HBM e passe a ser HBF (High Bandwidth Flash, memória flash de alta largura de banda). O ganhador do Prêmio Turing e professor da UC Berkeley David Patterson disse, em 30 de abril, em São Francisco, nos EUA, que acredita que HBF tem grande chance de se tornar a próxima tecnologia de memória cujo crescimento de demanda acelera — e que pode até formar um novo gargalo.
(O que mudou com a NVIDIA Vera Rubin? Análise da guerra das memórias na era dos cavaleiros do armazenamento: SK hynix, Samsung, Micron, SanDisk)
Por que David Patterson, ganhador do Prêmio Turing, aposta em HBF
As discussões sobre memória para IA quase sempre giram em torno de HBM (memória de alta largura de banda), mas, à medida que as aplicações de IA passam do treinamento para a inferência em larga escala, o próximo gargalo de oferta talvez deixe de ser apenas HBM e passe a ser HBF (High Bandwidth Flash, memória flash de alta largura de banda).
Patterson é uma figura de peso no meio da ciência da computação e é visto como um dos principais projetistas da arquitetura RISC. Ao falar da próxima etapa após HBM, ele apontou que, embora ainda existam muitos desafios técnicos a serem superados para o HBF, o HBF impulsionado por empresas como SK hynix e SanDisk tem a característica de “entregar grande capacidade com menor consumo de energia”. No futuro dos sistemas de IA, a variável central pode não ser apenas poder de computação, mas sim se os dados podem ser armazenados, escalonados e disponibilizados de forma eficiente.
O que é HBF? Empilhar NAND Flash não é para substituir HBM — e sim para dividir tarefas
A maior diferença entre HBF e HBM está nos materiais de memória usados na base. HBM é empilhada verticalmente de DRAM, para fornecer às GPUs e aceleradores de IA a capacidade de acesso a dados com alta largura de banda necessária — focada principalmente em “alimentar rapidamente os módulos de computação com dados”. Já o HBF empilha memória não volátil NAND Flash; sua vantagem central não é velocidade no limite, mas fornecer mais capacidade de dados a menor custo e com menor consumo de energia.
Em outras palavras, HBM resolve o problema de “velocidade” no processo de computação da IA, enquanto HBF resolve o problema de “capacidade” cada vez maior dos sistemas de IA. É por isso que HBF não é simplesmente uma substituição do HBM, e sim uma divisão nova de trabalho entre memórias. HBM fica responsável pela troca imediata e de alta velocidade de dados; HBF assume a necessidade de armazenamento de grandes volumes de dados intermediários, dados de contexto e dados acessados repetidamente durante o processo de inferência.
Com a expansão do mercado de inferência de IA, a demanda por HBF ganha destaque
A razão pela qual HBF recebe mais atenção em 2026 é que o centro de gravidade do mercado de IA está mudando gradualmente do treinamento para a inferência. Treinar IA é alimentar o modelo com grandes quantidades de dados para que ele aprenda parâmetros e padrões. Inferência, por sua vez, é quando o modelo treinado é, de fato, usado para gerar respostas com base nas entradas do usuário, executar tarefas, manter contexto anterior e continuar avaliando.
No cenário de inferência, a IA não é apenas responder uma pergunta de forma pontual: ela precisa reter diálogo anterior, contexto de trabalho, resultados de avaliação, registros de chamadas de ferramentas e até dados intermediários entre tarefas. Esses dados são enormes e precisam ser lidos e atualizados repetidamente.
O problema é que, se colocar tudo em HBM, o custo fica alto demais e a capacidade não é realista. HBM é adequada para processar dados rápidos que precisam ser usados imediatamente, mas não é apropriada para carregar todo o contexto e todos os estados intermediários gerados durante a inferência. Depois que se popularizam AI Agents, modelos de longo contexto, inferência multimodal e fluxos de trabalho de IA de nível corporativo, o que o sistema passa a precisar não é apenas memória mais rápida, e sim um pool maior de dados de alta velocidade. É exatamente por isso que HBF é visto com bons olhos.
SK hynix e SNDK impulsionam padronização; a demanda por HBF pode superar a de HBM em 2038
Em busca de maior largura de banda, SK hynix e SanDisk estão colaborando no desenvolvimento de HBF. É uma tecnologia de empilhamento 3D semelhante à HBM, mas usando wafers de NAND, com o objetivo de entregar throughput várias vezes maior do que SSDs tradicionais, voltado especificamente para inferência de IA.
O professor de engenharia elétrica e eletrônica da KAIST da Coreia do Sul, Kim Jong-ho, também indicou em um briefing técnico de HBF em fevereiro que, na era do PC, o núcleo era CPU; na era dos smartphones, o núcleo é baixo consumo de energia; e, na era da IA, o núcleo é memória. Ele separou claramente os papéis de HBM e HBF: o que determina velocidade é HBM, e o que determina capacidade é HBF. Kim ainda previu que, a partir de 2038, a demanda por HBF pode superar a de HBM.
A lógica por trás dessa avaliação é que, quanto maior o mercado de inferência de IA, mais volumoso se torna o contexto imediato que o modelo precisa processar, assim como dados históricos e estados de tarefas. Se tudo depender apenas de expansão de HBM, não só os custos ficam elevados como também o consumo total de energia do sistema e a pressão de empacotamento continuam subindo. Se o HBF conseguir avanços em largura de banda, empacotamento, durabilidade e padronização, pode se tornar a próxima camada-chave de memória para data centers de IA.
De HBM a HBF: a corrida de IA deixa de ser “computar mais rápido” e passa a ser “lembrar e ajustar”
No passado, quando o mercado falava de semicondutores de IA, o foco ficava muito em GPU, processos avançados e fornecimento de HBM. Especialmente depois do salto na demanda por servidores de IA da Nvidia, a HBM chegou a se tornar um indicador central para avaliar a competitividade de fabricantes de memória como SK hynix, Samsung e Micron. Mas a visão de Patterson lembra o mercado de que o gargalo da infraestrutura de IA está ficando mais complexo.
Quando a IA ainda está na fase de corrida do treinamento de modelos grandes, o objetivo é alimentar a GPU com memória de maior largura de banda. Mas, quando a IA entra na fase de inferência em larga escala e de aplicações com Agent, o problema passa a ser: como o modelo mantém contexto por muito tempo? Como preservar o estado das tarefas com baixo custo? Como fazer os dados fluírem com mais eficiência entre GPU, HBM, SSD, Flash e armazenamento em rede?
Assim, a próxima etapa da corrida de memória para IA talvez não seja apenas disputa por capacidade produtiva de HBM, e sim uma reorganização da hierarquia inteira de memórias. HBM continua sendo importante, porque determina se o chip de IA consegue operar com alta velocidade; porém, a chegada do HBF indica que os sistemas de IA começam a exigir uma nova camada de dados entre armazenamento tradicional e memória de alta largura de banda. Ela não necessariamente será a mais rápida, mas pode encontrar um novo equilíbrio entre capacidade, consumo de energia e custo.
Isso também significa que a próxima palavra-chave da cadeia de suprimentos de IA pode ir além de “memória de alta largura de banda” e passar para “memória flash de alta largura de banda”. HBM resolve os gargalos de computação imediata da IA, enquanto HBF pode resolver os gargalos de memória de dados ainda maiores na era da inferência.
Esta matéria: “O gargalo de memória após HBM seria HBF?” Ganhador do Prêmio Turing David Patterson: “A inferência vai redefinir a arquitetura de armazenamento” — foi publicada primeiro em Cadeia de Notícias ABMedia.
Related News
Análise do GEPA do Berkeley: a IA aprende novas tarefas sem atualizar pesos, com 35 vezes menos custo de treinamento do que o RL
JPMorgan: volume de negociações de stablecoins dispara, mas o mecanismo de Velocity impede que a capitalização cresça proporcionalmente
A16z comenta: a expressão “stablecoin” ficará ultrapassada; a próxima é “cripto programável”
OpenAI lança o GPT-5.5-Cyber: confronto com o Anthropic Mythos
O vice-presidente sênior de aprendizado profundo da NVIDIA acredita que os gastos com computação de IA superam os custos de folha de pagamento humana