DeepSeek et Xiaomi réduisent les prix d’API, tandis que des laboratoires américains augmentent leurs tarifs
DeepSeek a rendu sa remise de 75% sur DeepSeek V4-Pro permanente le 22 mai 2026, en fixant les prix de sortie à 0,87 $ pour un million de tokens. Xiaomi a emboîté le pas le 26 mai, en réduisant jusqu’à 99% les prix de l’API MiMo-V2.5 pour les entrées mises en cache, le modèle Pro étant désormais à 0,0036 $ pour un million de tokens pour l’entrée en cache. Ces baisses de prix découlent d’optimisations techniques dans les frameworks d’inférence et l’architecture de KV cache. Ces ajustements sont intervenus alors qu’OpenAI a doublé les prix de sortie de GPT-5.5 à 30 $ pour un million de tokens au lancement fin avril, et qu’Anthropic a livré Claude Opus 4.7 avec un nouveau tokenizer produisant jusqu’à 35% de tokens supplémentaires pour un texte d’entrée identique, ce qui pourrait gonfler les coûts réels malgré des tarifs inchangés.
Changements de tarification permanents annoncés
DeepSeek V4-Pro fonctionne désormais à 0,435 $ en entrée et 0,87 $ en sortie pour un million de tokens. La remise de 75%, auparavant prévue pour expirer, est devenue permanente plus tôt cette semaine. Xiaomi's MiMo-V2.5-Pro correspond aux mêmes 0,435 $/0,87 $ pour un million de tokens après les coupes du 26 mai. Les « cache hits » pour MiMo-V2.5 sont tombés à 0,0036 $ pour un million de tokens. La mise à niveau de facturation de Xiaomi donne aux utilisateurs 5 à 8 fois plus de tokens au même prix. Le plan Max à 100 $ fournit désormais 82 milliards de tokens, contre 1,6 milliard.
Implémentation technique derrière les baisses de prix
Fuli Luo, responsable de l’équipe MiMo chez Xiaomi et ancien développeur central de DeepSeek ayant co-construit DeepSeek-V2, a publié une explication technique sur X le 27 mai. Le framework d’inférence prend désormais en charge l’optimisation hiérarchique du KV cache pour SWA. Les tests du moteur d’inférence en production montrent que cette optimisation augmente la capacité des tokens en cache d’environ cinq fois. Le système réduit les coûts de stockage et de traitement d’environ 80%. « En opérant avec ces nouveaux prix d’API réduits, notre moteur d’inférence en production tourne à une capacité proche de 100%, et nous pouvons encore essentiellement atteindre l’équilibre », a écrit Luo.
DeepSeek V4 utilise deux types d’attention entrelacés : l’un compresse chaque tranche de quatre tokens pour une attention sélective, l’autre réduit chaque tranche de 128 tokens pour le contexte global. À un million de tokens de contexte, le KV cache de V4-Pro représente 10% de la taille de celui de son prédécesseur. L’inférence à token unique s’exécute à 27% du coût de calcul précédent.
Repères de performance et tarification comparative
DeepSeek V4-Pro obtient 80,6% sur SWE-Verified. Claude Opus 4.6 atteint 80,8% sur le même benchmark mesurant la résolution réelle d’issues GitHub. L’écart de prix entre les deux modèles : 34 fois sur la sortie. DeepSeek V4-Pro est un modèle de 1,6 billion de paramètres.
Claude Opus 4.7 coûte 5 $ pour un million de tokens en entrée et 25 $ pour un million de tokens en sortie. GPT-5.5 s’exécute à 30 $ pour un million de tokens en sortie, soit le double du tarif de son prédécesseur. Gemini 2.5 Pro se situe à 1,25 $ en entrée et 10 $ en sortie pour un million de tokens.
MiniMax M2.7 coûte 0,30 $ en entrée et 1,20 $ en sortie pour un million de tokens. Kimi K2.5 de Moonshot AI, avec 76,8% sur SWE-bench Verified, fonctionne à 0,60 $ en entrée et 2,50 $ en sortie. GLM-5.1 de Z.AI bat Claude Opus 4.6 sur un benchmark de codage au deuxième trimestre 2026. Quatre modèles frontier chinois ont été lancés dans une fenêtre de 12 jours au début du mois de mai, tous à moins d’un tiers du coût par token d’Opus 4.7. Le coût de DeepSeek V4-Pro pour les tokens d’entrée mis en cache est de 0,003625 $ pour un million de tokens.
Positionnement sur le marché entre fournisseurs
L’écart de tarification Q2 2026 entre les modèles frontier chinois et américains varie de 15 fois à 30 fois, selon la comparaison des modèles. Ce point de départ existe avant les remises liées au cache. Anthropic a maintenu la grille tarifaire de Claude Opus 4.7 à l’identique, mais l’a livré avec un nouveau tokenizer capable de produire jusqu’à 35% de tokens supplémentaires pour le même texte d’entrée.