La startup d’intelligence artificielle DeepInfra annonce avoir finalisé un financement de série B de 107 millions de dollars, mené par 500 Global et Georges Harik, ingénieur chez Google en début de carrière, avec la participation d’investisseurs stratégiques tels que NVIDIA, Samsung Next et Supermicro. D’après les informations officielles, cette nouvelle injection de fonds servira à étendre la capacité de centres de données à l’échelle mondiale, afin de résoudre les coûts de calcul et les goulots d’étranglement en matière d’efficacité auxquels sont confrontées les applications d’IA actuelles lorsqu’elles passent de l’« entraînement de modèles » au « raisonnement à grande échelle ».
La demande en inférence d’IA explose et devient un goulot d’étranglement majeur pour le déploiement en entreprise
Alors que l’intelligence artificielle se dirige vers la commercialisation, le centre de gravité des charges de travail des entreprises a connu un déplacement significatif. DeepInfra observe que, depuis le financement de série A, le volume de Token traité par sa plateforme a augmenté de 25 fois, indiquant que l’Inference (raisonnement) est désormais la force motrice principale des charges de travail d’IA des entreprises. À l’heure actuelle, les performances des modèles open source peuvent déjà rivaliser avec celles des systèmes propriétaires, réduisant considérablement les barrières à l’innovation. Toutefois, avec l’essor des applications d’agents autonomes (Agentic Systems), une seule tâche peut déclencher des centaines d’appels à des modèles. Comme les plateformes cloud généralistes traditionnelles ne sont pas conçues en fonction des besoins d’inférence, les entreprises font face à des défis tels que des coûts d’exploitation trop élevés et une latence difficile à contrôler, ce qui fait de l’inférence une contrainte systémique des charges de travail.
Optimiser l’efficacité de l’économie des tokens grâce à l’intégration verticale
DeepInfra adopte une stratégie d’intégration verticale et affirme que le raisonnement à haute performance doit être obtenu grâce à une conception coordonnée du matériel, du réseau et du logiciel. Le groupe dispose par le passé d’une expérience dans le développement et l’exploitation d’un système distribué imo ayant touché 200 millions d’utilisateurs à l’échelle mondiale. Aujourd’hui, il a déjà établi huit infrastructures GPU aux États-Unis. Par rapport aux services qui louent des capacités à des tiers, DeepInfra détient un contrôle complet de la pile, du niveau des puces jusqu’à l’interface API. Cette conception lui permet d’optimiser les tâches de génération de tokens « toujours en ligne », garantissant une latence plus prédictible que dans un environnement cloud généraliste lors de l’exécution de charges de travail d’IA intelligentes.
Deepinfra, un partenaire d’infrastructure de longue date pour l’écosystème ouvert d’IA de NVIDIA
Deepinfra est un partenaire d’infrastructure en collaboration précoce pour l’écosystème d’IA ouvert de NVIDIA, prenant en charge le modèle Nemotron, l’architecture d’agents NemoClaw et le logiciel d’inférence NVIDIA Dynamo. Le déploiement précoce des GPU Blackwell, ainsi que l’intégration à venir de Vera Rubin et Dynamo, devraient faire progresser l’efficacité coût-bénéfice de l’inférence jusqu’à 20 fois.
Deepinfra propose des modèles open source à fort pouvoir concurrentiel
En matière de contrôle des coûts, DeepInfra, grâce à un fonctionnement matériel optimisé, opère plus de 190 modèles open source, cherchant à offrir des prix particulièrement compétitifs sur le marché. Par exemple, pour le modèle d’inférence open source GLM-5, sa tarification hybride est de 1,24 dollar par million de tokens, soit environ 20 % en dessous de la valeur moyenne du secteur. Pour les « modèles de pensée » qui nécessitent de gros volumes de calcul de tokens en interne, la plateforme a développé un mécanisme de cache offrant des remises sur les textes statiques en cas d’entrées répétées, réduisant efficacement les coûts des pipelines de dialogue multi-tours et de génération renforcée par la récupération (RAG). Pour répondre aux exigences de sécurité côté entreprise, DeepInfra fournit une API compatible avec OpenAI et s’engage sur une conservation nulle des données. En outre, la société obtient les certifications SOC 2 et ISO 27001 afin de garantir que les développeurs puissent appliquer directement les modèles à des environnements de production.
L’importance d’une infrastructure dédiée à l’inférence pour l’étape suivante de l’intelligence artificielle
Le soutien du marché des investissements à DeepInfra reflète le fait que l’importance des infrastructures d’IA dépasse progressivement le modèle lui-même. Tony Wang, associé-gérant de 500 Global, souligne qu’en environnement de développement propulsé par des agents, ce dont les développeurs ont besoin, c’est d’une plateforme dédiée plus flexible, plus rapide et plus fiable. Après l’achèvement de ce tour de financement, le montant total levé par DeepInfra atteint 133 millions de dollars. Les fonds serviront à l’expansion des capacités de calcul à l’échelle mondiale, au renforcement des outils pour développeurs et au soutien des modèles d’agents autonomes de prochaine génération. À mesure que le nombre de tokens traités chaque semaine approche les 5 billions, DeepInfra vise à construire une « token factory » à haute efficacité, afin d’offrir une base de calcul durable aux entreprises lors de la phase de mise à l’échelle des applications d’IA.
Cet article « L’allié de longue date de NVIDIA dans l’IA ouverte Deepinfra lève 107 millions de dollars en série B pour construire une “token factory” » est apparu pour la première fois sur Chaîne Actualités ABMedia.
Related News
Anthorpic lance un agent IA spécialisé pour la finance, et des initiés révèlent que Claude ne peut pas remplacer les analystes clés dans le secteur
Rapport Epoch AI : Anthropic génère 9 millions de dollars de revenus par employé, soit plus de 60 % que OpenAI
Whale Labs : les négociations de financement entre DeepSeek et Alibaba n’ont pas abouti à un accord
La demande pour les puces d’IA est très forte : l’introduction en bourse de Cerebras a été sursouscrite de plus de 20 fois
Anthropic envisage un financement estival de 50 milliards de dollars, avec une valorisation préalable estimée à environ 9 billions.