DeepSeek e Xiaomi cortam os preços dos modelos de IA em até 99%, enquanto laboratórios dos EUA aumentam os custos

DeepSeek e Xiaomi cortam preços de API, enquanto laboratórios americanos aumentam taxas

A DeepSeek tornou o seu desconto de 75% na DeepSeek V4-Pro permanente em 22 de maio de 2026, fixando o preço de output em 0,87 USD por milhão de tokens. A Xiaomi seguiu em 26 de maio, cortando os preços da API do MiMo-V2.5 em até 99% para inputs em cache, com o modelo Pro agora a custar 0,0036 USD por milhão de tokens para input em cache. As reduções de preços resultam de otimizações técnicas em frameworks de inference e na arquitetura de KV cache. Estes cortes surgiram ao mesmo tempo que a OpenAI duplicou os preços de output do GPT-5.5 para 30 USD por milhão de tokens no lançamento em finais de abril, e que a Anthropic lançou a Claude Opus 4.7 com um novo tokenizer que produz até 35% mais tokens para o mesmo texto de entrada, podendo inflacionar custos reais apesar de as tabelas de preços permanecerem inalteradas.

Alterações Permanentes nos Preços Anunciadas

A DeepSeek V4-Pro passa a custar 0,435 USD de input e 0,87 USD de output por milhão de tokens. O desconto de 75%, que antes estava previsto para terminar, ficou permanente mais cedo esta semana. O MiMo-V2.5-Pro da Xiaomi coincide com os mesmos valores de 0,435/0,87 USD por milhão de tokens após os cortes de 26 de maio. Os “cache hits” para o MiMo-V2.5 baixaram para 0,0036 USD por milhão de tokens. A atualização de faturação da Xiaomi dá aos utilizadores 5 a 8 vezes mais tokens pelo mesmo preço. O plano Max, a 100 USD, passa a disponibilizar 82 mil milhões de tokens, acima dos 1,6 mil milhões.

Implementação Técnica por Trás das Reduções de Preço

Fuli Luo, responsável pela equipa MiMo da Xiaomi e antigo programador core da DeepSeek que co-idealizou o DeepSeek-V2, publicou uma explicação técnica no X em 27 de maio. O framework de inference agora suporta otimização hierárquica de KV cache para SWA. Testes do motor de inference em produção mostram que esta otimização aumenta a capacidade de tokens em cache em aproximadamente cinco vezes. O sistema reduz custos de armazenamento e processamento em cerca de 80%. “A operar com estes novos preços reduzidos de API, o nosso motor de inference em produção está a funcionar a quase plena capacidade, e ainda conseguimos praticamente empatar”, escreveu Luo.

O DeepSeek V4 usa dois tipos de atenção intercalados: um que comprime a cada quatro tokens para atenção seletiva e outro que colapsa a cada 128 tokens para contexto global. Com um milhão de tokens de contexto, o KV cache do V4-Pro é 10% do tamanho do antecessor. A inference de token único corre a 27% do custo de computação anterior.

Benchmarks de Desempenho e Preços Comparativos

O DeepSeek V4-Pro marcou 80,6% em SWE-Verified. A Claude Opus 4.6 marcou 80,8% no mesmo benchmark, que mede a resolução real de issues no GitHub. A diferença de preços entre os dois modelos: 34x no output. O DeepSeek V4-Pro é um modelo com 1,6 biliões de parâmetros.

A Claude Opus 4.7 custa 5 USD por milhão de tokens de input e 25 USD por milhão de tokens de output. O GPT-5.5 está a 30 USD por milhão de tokens de output, duplicando a taxa do seu antecessor. A Gemini 2.5 Pro fica em 1,25 USD de input e 10 USD de output por milhão de tokens.

A MiniMax M2.7 custa 0,30 USD de input e 1,20 USD de output por milhão de tokens. A Kimi K2.5 da Moonshot AI, com 76,8% em SWE-bench Verified, roda a 0,60 USD de input e 2,50 USD de output. A GLM-5.1 da Z.AI superou a Claude Opus 4.6 num benchmark de codificação no 2.º trimestre de 2026. Quatro modelos fronteira chineses foram lançados num intervalo de 12 dias no início de maio, todos abaixo de um terço do custo por token da Opus 4.7. O custo do DeepSeek V4-Pro para tokens de input em cache é 0,003625 USD por milhão de tokens.

Posicionamento no Mercado entre Fornecedores

A diferença de preços do 2.º trimestre de 2026 entre modelos fronteira chineses e americanos varia de 15x a 30x, dependendo da comparação do modelo. Este patamar existe antes de descontos em cache. A Anthropic manteve a tabela de taxas da Claude Opus 4.7 inalterada, mas enviou-a com um novo tokenizer que pode produzir até 35% mais tokens para o mesmo texto de entrada.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário