NVIDIA firma parceria de longo prazo com a AI aberta Deepinfra e obtém US$ 107 milhões na rodada B para criar uma "fábrica de tokens"

ChainNewsAbmedia

2026-05-10 00:04:08

GLM-1,33%

A startup de inteligência artificial DeepInfra anunciou a conclusão de uma rodada B de US$ 1,07 bilhão, liderada pela 500 Global e por engenheiros veteranos do Google, Georges Harik, com participação de investidores estratégicos como NVIDIA, Samsung Next e Supermicro. De acordo com a divulgação oficial, o aporte será usado para expandir a capacidade de data centers globais, resolvendo os custos de computação e os gargalos de eficiência enfrentados no momento em que as aplicações de IA passam de “treinamento de modelos” para “inferência em grande escala”.

A demanda por inferência em IA dispara e vira gargalo-chave para as empresas

Conforme a IA avança rumo à comercialização, o foco das cargas de trabalho corporativas mudou de forma significativa. A DeepInfra observou que, desde a rodada A, a quantidade de tokens processados em sua plataforma cresceu 25 vezes, indicando que a Inference (inferência) se tornou o principal motor das cargas de trabalho de IA nas empresas. Atualmente, a eficácia dos modelos open source já consegue se equiparar aos sistemas proprietários, reduzindo bastante a barreira para inovação. No entanto, junto disso, as aplicações de sistemas autônomos (Agentic Systems) exigem que uma única tarefa possa disparar centenas de chamadas de modelos. Como as plataformas de nuvem tradicionais e generalistas não foram projetadas com base nas necessidades de inferência, as empresas enfrentam desafios como custos operacionais altos demais e latência fora de controle, fazendo com que a inferência se torne uma restrição do sistema nas cargas de trabalho.

Integração vertical e otimização de stack para eficiência em economia de tokens

A DeepInfra adota uma estratégia de integração vertical e defende que inferência de alto desempenho precisa ser alcançada por meio de um projeto coordenado de hardware, rede e software. A equipe já tem experiência em desenvolver e operar, pelo imo, sistemas distribuídos de comunicação com 200 milhões de usuários, e atualmente já estabeleceu oito unidades de infraestrutura de GPU nos Estados Unidos. Em comparação com provedores que alugam capacidade de terceiros, a DeepInfra tem controle total do stack, do nível do chip até a interface de API. Esse tipo de design permite que a empresa otimize tarefas de geração de tokens “sempre online”, garantindo que, ao executar cargas de trabalho de IA, consiga oferecer latência mais previsível do que em ambientes de nuvem generalistas.

Deepinfra, parceira de longa data da NVIDIA no ecossistema aberto de IA

A Deepinfra é uma parceira inicial de infraestrutura para o ecossistema aberto de IA da NVIDIA, oferecendo suporte ao modelo Nemotron, à arquitetura de agentes NemoClaw e ao software de inferência NVIDIA Dynamo. A implantação inicial de GPUs Blackwell e a integração que está por vir com Vera Rubin e Dynamo elevarão a eficiência custo-benefício da inferência em até 20 vezes.

Deepinfra oferece modelos open source com competitividade

No controle de custos, a DeepInfra, por meio de operações otimizadas de hardware, já busca atender mais de 190 modelos open source, tentando oferecer preços altamente competitivos para o mercado. Como exemplo do modelo de inferência open source GLM-5, sua precificação híbrida é de US$ 1,24 para cada 1 milhão de tokens, abaixo da média do setor em cerca de 20%. Para “modelos de pensamento” que exigem grande volume de computação interna de tokens, a plataforma desenvolveu um mecanismo de cache, com precificação descontada para textos estáticos repetidos de entrada, reduzindo efetivamente os custos de conversas em múltiplas rodadas e de pipelines de Retrieval-Augmented Generation (RAG). Para atender exigências de segurança do lado corporativo, a DeepInfra oferece uma API compatível com a OpenAI e promete retenção zero de dados, além de passar por certificações SOC 2 e ISO 27001, garantindo que desenvolvedores possam aplicar os modelos diretamente em ambientes de produção.

Infraestrutura dedicada de inferência é crucial para a próxima etapa da IA

O apoio do mercado de investimentos à DeepInfra reflete que a importância de infraestrutura de IA vem ganhando espaço além do que os próprios modelos. Tony Wang, sócio-gerente da 500 Global, afirmou que, em ambientes de desenvolvimento orientados por agentes, os desenvolvedores precisam de uma plataforma dedicada que seja mais flexível, rápida e confiável. Após a conclusão desta rodada, o total de captação da DeepInfra chegou a US$ 1,33 bilhão, e o dinheiro será usado para expandir a capacidade global de computação, aprofundar ferramentas para desenvolvedores e apoiar modelos de agentes autônomos da próxima geração. À medida que o volume de tokens processados semanalmente se aproxima de 5 trilhões de tokens, a DeepInfra tem como objetivo construir uma “fábrica de tokens” de alta eficiência, fornecendo uma base sustentável de poder computacional para a fase de aplicação escalável de IA nas empresas.

Esta matéria “Parceira de longa data da NVIDIA no AI aberto, Deepinfra obtém US$ 1,07 bilhão na rodada B e cria ‘fábrica de tokens’” apareceu pela primeira vez em Cadeia de Notícias ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.