La course aux puces IA a, au cours des deux dernières années, presque entièrement tourné autour de la HBM. Mais, à mesure que les applications IA passent de l’entraînement des modèles à des opérations de raisonnement à grande échelle (inférence), le prochain goulot d’étranglement d’approvisionnement pourrait ne plus être seulement la HBM, mais plutôt la HBF (High Bandwidth Flash, mémoire flash à très haut débit). Le lauréat du prix Turing, le professeur de l’UC Berkeley David Patterson, a déclaré le 30 avril à San Francisco, aux États-Unis, qu’il pensait que la HBF allait très probablement devenir la technologie de mémoire clé de la prochaine flambée de la demande, voire former un nouveau goulot d’étranglement.

(Qu’est-ce que change la Vera Rubin de Nvidia ? Analyse de l’ère de la bataille des mémoires : SK Hynix, Samsung, Micron, SanDisk)

Pourquoi David Patterson, lauréat du prix Turing, mise sur la HBF

La plupart des discussions sur la mémoire pour l’IA tournent autour de la HBM (High Bandwidth Memory, mémoire à très haut débit). Mais à mesure que les applications IA passent de l’entraînement des modèles à l’inférence à grande échelle, le prochain goulot d’étranglement d’approvisionnement pourrait ne plus être seulement la HBM, mais plutôt la HBF (High Bandwidth Flash, mémoire flash à très haut débit).

Patterson est une figure majeure du monde de l’informatique, considéré comme l’un des concepteurs importants de l’architecture RISC. Lorsqu’il a évoqué l’étape suivante après la HBM, il a indiqué que, même si la HBF comporte encore de nombreux défis techniques à résoudre, la HBF portée par des entreprises comme SK Hynix et SanDisk présente la caractéristique de « fournir de grandes capacités avec une consommation d’énergie plus faible ». À l’avenir, la variable centrale des systèmes IA ne sera plus seulement la puissance de calcul : la question sera de savoir si les données peuvent être efficacement stockées, orchestrées et fournies.

Qu’est-ce que la HBF ? Empiler du NAND Flash ne remplace pas la HBM : c’est une répartition des rôles

La plus grande différence entre la HBF et la HBM réside dans la matière de mémoire utilisée à la base. La HBM consiste à empiler verticalement de la DRAM afin de fournir la capacité d’accès à très haut débit dont ont besoin les GPU et accélérateurs IA ; elle est principalement chargée de « nourrir rapidement les unités de calcul en données ». La HBF, elle, empile de la mémoire non volatile NAND Flash. Son avantage central n’est pas la vitesse extrême, mais la fourniture d’une plus grande capacité de données à coût et consommation d’énergie plus faibles.

Autrement dit, la HBM résout le problème « vitesse » durant le processus de calcul de l’IA, tandis que la HBF résout le problème « capacité » de plus en plus important pour les systèmes IA. C’est aussi pourquoi la HBF ne remplace pas simplement la HBM : elle établit une nouvelle répartition du travail au sein de la mémoire. La HBM gère les échanges immédiats et à haute vitesse de données ; la HBF prend en charge les besoins de stockage à grande échelle liés aux données intermédiaires, aux données de contexte et aux données rappelées à répétition pendant le processus d’inférence.

L’élargissement du marché de l’inférence IA met la demande en HBF sur le devant de la scène

Si la HBF attire davantage l’attention en 2026, c’est notamment parce que le centre de gravité du marché IA se déplace progressivement de l’entraînement vers l’inférence. L’entraînement IA consiste à alimenter le modèle avec d’énormes volumes de données pour lui permettre d’apprendre des paramètres et des régularités ; l’inférence IA, elle, consiste à partir du moment où le modèle est entraîné : à générer des réponses selon les entrées de l’utilisateur, à exécuter des tâches, à se souvenir du contexte précédent et à évaluer en continu.

Dans les scénarios d’inférence, l’IA ne se limite pas à répondre une seule fois à une question : elle doit conserver l’historique des conversations, la trame de travail, les résultats d’évaluation, les enregistrements d’appel d’outils, voire des données intermédiaires entre plusieurs tâches. Les volumes de données sont considérables et elles doivent être lues et mises à jour de manière répétée.

Le problème est que si tout était stocké dans la HBM, les coûts seraient trop élevés et la capacité irréaliste. La HBM convient au traitement de données à grande vitesse dont on a besoin immédiatement, mais elle n’est pas faite pour supporter l’ensemble des données de contexte et des états intermédiaires générés au cours de l’inférence. Une fois que les AI Agent, les modèles à long contexte, l’inférence multimodale et les flux de travail IA de niveau entreprise se généralisent, le système aura besoin non seulement de mémoire plus rapide, mais d’un plus grand bassin de données à haut débit. C’est précisément pour cela que la HBF est considérée comme prometteuse.

SK Hynix et SNDK ont poussé la standardisation ; en 2038, la demande en HBF pourrait dépasser celle de la HBM

Dans l’objectif d’augmenter la bande passante, SK Hynix et SanDisk collaborent au développement de la HBF. Il s’agit d’une technologie d’empilage 3D comparable à la HBM, mais utilisant des tranches NAND, visant à fournir un débit plusieurs fois supérieur à celui des SSD traditionnels, spécialement pour servir l’inférence IA.

En février, le professeur Kim Jong-ho de l’école d’ingénierie électrique et électronique de la KAIST (Corée) avait aussi indiqué lors d’une présentation technique sur la HBF que, dans l’ère PC, le cœur du système était le CPU ; dans l’ère du smartphone, le cœur était la faible consommation d’énergie ; et dans l’ère de l’IA, le cœur serait la mémoire. Il a réparti clairement les rôles de la HBM et de la HBF : la HBM détermine la vitesse, la HBF détermine la capacité. Kim Jong-ho a également prédit qu’à partir de 2038, la demande en HBF pourrait dépasser celle en HBM.

La logique derrière ce jugement est la suivante : plus le marché de l’inférence IA grandit, plus les contextes immédiats, les données historiques et l’état des tâches que les modèles doivent traiter deviennent volumineux. Si l’on compte uniquement sur l’extension de la HBM, non seulement les coûts seraient élevés, mais la consommation d’énergie globale du système et la contrainte liée au packaging continueraient aussi d’augmenter. Si la HBF parvient à des percées en bande passante, en packaging, en durabilité et en standardisation, elle pourrait devenir la nouvelle couche clé de mémoire pour les centres de données IA.

De la HBM à la HBF : la course IA passe de « savoir calculer vite » à « savoir stocker, orchestrer et exploiter »

Par le passé, lorsque le marché parlait de semi-conducteurs IA, l’attention se portait surtout sur les GPU, les procédés de fabrication avancés et l’approvisionnement en HBM. En particulier, après la forte explosion de la demande de serveurs IA de Nvidia, la HBM est devenue un indicateur central pour juger de la compétitivité des fabricants de mémoire comme SK Hynix, Samsung et Micron. Mais les propos de Patterson rappellent que les goulots d’étranglement des infrastructures IA deviennent plus complexes.

Tant que l’IA est dans la phase de compétition d’entraînement de grands modèles, l’objectif est d’alimenter les GPU avec de la mémoire à plus grande bande passante. Mais lorsque l’IA entre dans l’ère de l’inférence à grande échelle et des applications d’agents (Agent), la question devient : comment le modèle maintient-il le contexte sur une longue période ? Comment sauvegarder l’état des tâches à faible coût ? Comment faire circuler plus efficacement les données entre le GPU, la HBM, le SSD, le Flash et le stockage réseau ?

Ainsi, la prochaine course à la mémoire pour l’IA ne se limitera peut-être plus à une bataille sur la capacité de production de la HBM, mais plutôt à un remaniement complet de la hiérarchie de la mémoire. La HBM reste importante, car elle détermine si les puces IA peuvent calculer à grande vitesse ; l’émergence de la HBF signifie en revanche que les systèmes IA commencent à avoir besoin d’une nouvelle couche de données située entre le stockage traditionnel et la mémoire à très haut débit. Elle n’est pas forcément la plus rapide, mais elle pourrait trouver un nouvel équilibre entre capacité, consommation d’énergie et coût.

Cela implique aussi que le prochain mot-clé clé de la chaîne d’approvisionnement IA pourrait passer de « mémoire à très haut débit » à « mémoire flash à très haut débit ». La HBM traite le goulot d’étranglement du calcul en temps réel de l’IA, tandis que la HBF pourrait résoudre le goulot d’étranglement de stockage et de mémoire des données encore plus massif à l’ère de l’inférence.

Cet article : Le goulot d’étranglement de la mémoire IA après la HBM est-il la HBF ? Lauréat du prix Turing David Patterson : l’inférence redéfinira l’architecture de stockage — Apparu le premier sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.