Nvidia ouvre un partenariat de long terme en matière d’IA avec Deepinfra, qui obtient un financement de série B de 107 millions de dollars afin de créer une « usine de jetons »

GLM0,13%

La startup d’intelligence artificielle DeepInfra annonce avoir finalisé un financement de série B de 107 millions de dollars, mené par 500 Global et Georges Harik, ingénieur chez Google en début de carrière, avec la participation d’investisseurs stratégiques tels que NVIDIA, Samsung Next et Supermicro. D’après les informations officielles, cette nouvelle injection de fonds servira à étendre la capacité de centres de données à l’échelle mondiale, afin de résoudre les coûts de calcul et les goulots d’étranglement en matière d’efficacité auxquels sont confrontées les applications d’IA actuelles lorsqu’elles passent de l’« entraînement de modèles » au « raisonnement à grande échelle ».

La demande en inférence d’IA explose et devient un goulot d’étranglement majeur pour le déploiement en entreprise

Alors que l’intelligence artificielle se dirige vers la commercialisation, le centre de gravité des charges de travail des entreprises a connu un déplacement significatif. DeepInfra observe que, depuis le financement de série A, le volume de Token traité par sa plateforme a augmenté de 25 fois, indiquant que l’Inference (raisonnement) est désormais la force motrice principale des charges de travail d’IA des entreprises. À l’heure actuelle, les performances des modèles open source peuvent déjà rivaliser avec celles des systèmes propriétaires, réduisant considérablement les barrières à l’innovation. Toutefois, avec l’essor des applications d’agents autonomes (Agentic Systems), une seule tâche peut déclencher des centaines d’appels à des modèles. Comme les plateformes cloud généralistes traditionnelles ne sont pas conçues en fonction des besoins d’inférence, les entreprises font face à des défis tels que des coûts d’exploitation trop élevés et une latence difficile à contrôler, ce qui fait de l’inférence une contrainte systémique des charges de travail.

Optimiser l’efficacité de l’économie des tokens grâce à l’intégration verticale

DeepInfra adopte une stratégie d’intégration verticale et affirme que le raisonnement à haute performance doit être obtenu grâce à une conception coordonnée du matériel, du réseau et du logiciel. Le groupe dispose par le passé d’une expérience dans le développement et l’exploitation d’un système distribué imo ayant touché 200 millions d’utilisateurs à l’échelle mondiale. Aujourd’hui, il a déjà établi huit infrastructures GPU aux États-Unis. Par rapport aux services qui louent des capacités à des tiers, DeepInfra détient un contrôle complet de la pile, du niveau des puces jusqu’à l’interface API. Cette conception lui permet d’optimiser les tâches de génération de tokens « toujours en ligne », garantissant une latence plus prédictible que dans un environnement cloud généraliste lors de l’exécution de charges de travail d’IA intelligentes.

Deepinfra, un partenaire d’infrastructure de longue date pour l’écosystème ouvert d’IA de NVIDIA

Deepinfra est un partenaire d’infrastructure en collaboration précoce pour l’écosystème d’IA ouvert de NVIDIA, prenant en charge le modèle Nemotron, l’architecture d’agents NemoClaw et le logiciel d’inférence NVIDIA Dynamo. Le déploiement précoce des GPU Blackwell, ainsi que l’intégration à venir de Vera Rubin et Dynamo, devraient faire progresser l’efficacité coût-bénéfice de l’inférence jusqu’à 20 fois.

Deepinfra propose des modèles open source à fort pouvoir concurrentiel

En matière de contrôle des coûts, DeepInfra, grâce à un fonctionnement matériel optimisé, opère plus de 190 modèles open source, cherchant à offrir des prix particulièrement compétitifs sur le marché. Par exemple, pour le modèle d’inférence open source GLM-5, sa tarification hybride est de 1,24 dollar par million de tokens, soit environ 20 % en dessous de la valeur moyenne du secteur. Pour les « modèles de pensée » qui nécessitent de gros volumes de calcul de tokens en interne, la plateforme a développé un mécanisme de cache offrant des remises sur les textes statiques en cas d’entrées répétées, réduisant efficacement les coûts des pipelines de dialogue multi-tours et de génération renforcée par la récupération (RAG). Pour répondre aux exigences de sécurité côté entreprise, DeepInfra fournit une API compatible avec OpenAI et s’engage sur une conservation nulle des données. En outre, la société obtient les certifications SOC 2 et ISO 27001 afin de garantir que les développeurs puissent appliquer directement les modèles à des environnements de production.

L’importance d’une infrastructure dédiée à l’inférence pour l’étape suivante de l’intelligence artificielle

Le soutien du marché des investissements à DeepInfra reflète le fait que l’importance des infrastructures d’IA dépasse progressivement le modèle lui-même. Tony Wang, associé-gérant de 500 Global, souligne qu’en environnement de développement propulsé par des agents, ce dont les développeurs ont besoin, c’est d’une plateforme dédiée plus flexible, plus rapide et plus fiable. Après l’achèvement de ce tour de financement, le montant total levé par DeepInfra atteint 133 millions de dollars. Les fonds serviront à l’expansion des capacités de calcul à l’échelle mondiale, au renforcement des outils pour développeurs et au soutien des modèles d’agents autonomes de prochaine génération. À mesure que le nombre de tokens traités chaque semaine approche les 5 billions, DeepInfra vise à construire une « token factory » à haute efficacité, afin d’offrir une base de calcul durable aux entreprises lors de la phase de mise à l’échelle des applications d’IA.

Cet article « L’allié de longue date de NVIDIA dans l’IA ouverte Deepinfra lève 107 millions de dollars en série B pour construire une “token factory” » est apparu pour la première fois sur Chaîne Actualités ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire