D-Matrix, une startup de puces d’IA soutenue par Microsoft, basée dans la Silicon Valley, a lancé sa puce d’inférence Corsair en affirmant qu’elle exécute des charges d’inférence 10 fois plus vite et consomme cinq fois moins d’énergie qu’un GPU Nvidia autonome pour de petites charges. La société, fondée en 2019 et valorisée à environ 2 milliards de dollars après avoir levé environ 500 millions de dollars, commence à expédier aux clients ce mois-ci. Le lancement intervient alors que le marché des puces d’IA montre une opportunité substantielle pour des acteurs spécialisés, après l’introduction en bourse de Cerebras le mois dernier, qui a levé plus de 5,5 milliards de dollars et valorisé la société à plus de 50 milliards de dollars, et l’acquisition par Nvidia de Groq pour 20 milliards de dollars en décembre.
D-Matrix utilise une architecture de mémoire SRAM pour une inférence à faible latence
La puce Corsair de D-Matrix obtient une inférence à faible latence à faible puissance en intégrant étroitement mémoire et calcul sur une seule puce. Comme Groq et Cerebras, D-Matrix s’appuie sur la SRAM, un type de mémoire pouvant être fabriquée dans des fonderies de logique comme Taiwan Semiconductor Manufacturing Company et intégrée sur la même puce. Les GPU reposent sur de grandes quantités d’un autre type de mémoire appelé DRAM, conditionnée en piles de mémoire à haut débit ajoutées autour de la puce de logique. Le cofondateur et PDG Sid Sheth a déclaré que l’entreprise ne se heurte pas à un goulot d’étranglement autour de la DRAM, car le produit n’a pas besoin de DRAM pour réussir.
Lorsqu’elle est associée à un GPU Nvidia Blackwell, D-Matrix affirme, en citant des recherches de Gimlet Labs, que Corsair peut exécuter l’inférence 10 fois plus vite, coûter trois fois moins cher et être jusqu’à cinq fois plus économe en énergie qu’un GPU autonome. Sheth affirme que Corsair est conçue pour l’inférence d’IA, en optimisant pour l’interactivité ou la vitesse plutôt que la taille du langage, visant des cas d’usage comme les chatbots, les agents vocaux et les outils agentiques.
La société obtient des engagements de la part d’hyperscalers et de laboratoires d’IA
Sheth a déclaré que l’entreprise a des engagements de la part d’hyperscalers de premier plan, de néoclouds et de laboratoires d’IA de pointe. D-Matrix commence à expédier à ces clients ce mois-ci. Environ 90% des clients se trouvent aux États-Unis, tandis que les clients à l’étranger sont au Moyen-Orient et en Asie du Sud-Est, a déclaré Sheth. Microsoft a investi via sa branche de capital-risque M12.
Sheth a indiqué n’avoir aucune intention de vendre la société et a qualifié le marché des puces d’IA de « marché de 1 billion de dollars en train de se constituer ». L’analyste semi-conducteurs Stacy Rasgon de Bernstein Research a noté que D-Matrix a un nombre raisonnable d’engagements clients réels et concrets, les clients utilisant souvent les puces en combinaison avec Nvidia.
La puce Corsair fait face à des limites avec les modèles à grande échelle
Rick Bahr, professeur adjoint de génie électrique à l’université Stanford, a identifié une limitation significative : bien que la SRAM à l’échelle de la puce permette des vitesses d’inférence remarquables parce que les données parcourent de courtes distances, elle ne peut pas gérer les billions de paramètres qui composent désormais les grands modèles des leaders comme OpenAI et Anthropic. Bahr a déclaré que ce nombre de paramètres ne peut tout simplement pas être mis sur une conception basée sur la SRAM.
Le PDG de Nvidia répond aux allégations de concurrence sur l’inférence
Le PDG de Nvidia, Jensen Huang, a déclaré la semaine dernière que son entreprise reste le leader de l’inférence à faible coût avec son système Vera Rubin parce qu’il ne s’agit pas seulement de vitesse. À Computex à Taïwan, Huang a expliqué que la raison est que Nvidia intègre tout, conçoit tout de A à Z, simule l’ensemble du système et pratique un co-design extrême. Nvidia a publié une nouvelle puce Groq lors du GTC en mars, appelée unité de traitement du langage.
D-Matrix expédie des cartes à quatre puces construites sur le procédé 6 nanomètres de TSMC
D-Matrix vend des cartes contenant quatre puces Corsair regroupées, logées dans une carte qui s’insère dans des emplacements d’un serveur de rack en centre de données et coûte des dizaines de milliers de dollars. Sheth a qualifié Corsair de solution SRAM la plus dense du marché aujourd’hui, avec jusqu’à 128 gigaoctets de mémoire SRAM dans un seul serveur. La puce est fabriquée à Taïwan sur le nœud 6 nanomètres de TSMC.
D-Matrix s’est associée à Arista, Broadcom et Super Micro pour construire un système complet à l’échelle d’un rack appelé SquadRack pour déployer ses puces dans des centres de données d’IA. La prochaine puce de la société, Raptor, est prévue pour être lancée l’an prochain sur TSMC 4 nanomètres, ce que Sheth a déclaré pourrait sortir de l’usine de l’entreprise taïwanaise en Arizona.
FAQ
Quelles allégations de performance D-Matrix fait-elle pour sa puce Corsair ?
D-Matrix affirme que sa puce Corsair peut exécuter des charges d’inférence 10 fois plus vite et consommer cinq fois moins d’énergie qu’un GPU Nvidia autonome pour de petites charges. Lorsqu’elle est associée à un GPU Nvidia Blackwell, en citant des recherches de Gimlet Labs, Corsair peut exécuter l’inférence 10 fois plus vite, coûter trois fois moins cher et être jusqu’à cinq fois plus économe en énergie qu’un GPU autonome.
Quelles sont les limites techniques de l’approche basée sur la SRAM de D-Matrix ?
D’après Rick Bahr, professeur adjoint de génie électrique à l’université Stanford, la conception basée sur la SRAM ne peut pas gérer les billions de paramètres qui composent les grands modèles des leaders comme OpenAI et Anthropic. Bien que la SRAM à l’échelle de la puce permette des vitesses d’inférence remarquables, ce nombre de paramètres ne peut tout simplement pas être mis sur une conception basée sur la SRAM.
Quand D-Matrix commence-t-elle à expédier ses puces Corsair aux clients ?
D-Matrix commence à expédier les puces Corsair aux clients ce mois-ci. La société a des engagements de la part d’hyperscalers, de néoclouds et de laboratoires d’IA de pointe, avec environ 90% des clients aux États-Unis et des clients à l’étranger au Moyen-Orient et en Asie du Sud-Est.