Le chercheur en IA Aran Komatsuzaki a récemment publié une analyse expérimentale sur la plateforme X, révélant un problème grave de « taxe non anglaise (non-English tax) » au niveau des tokenizers (segmenteurs) des principaux grands modèles de langage (LLM). Parmi eux, les modèles Claude de l’écosystème d’Anthropic nécessitent même de consommer jusqu’à près de trois fois plus de tokens pour des contenus en chinois, coréen et japonais, ce qui a déclenché de vifs débats au sein de la communauté.
Méthode d’expérimentation : quantifier les écarts de coût linguistique avec un article classique
Komatsuzaki s’appuie sur l’article classique « The Bitter Lesson », en le traduisant en chinois, en hindi, en arabe, en coréen, en japonais, etc., puis en faisant passer chaque version dans les tokenizers de divers modèles afin de calculer le nombre de tokens consommés. L’expérience prend comme référence la version anglaise d’OpenAI (1,0×) et compare, via des multiplicateurs standardisés, l’efficacité de chaque modèle selon la langue.
Le nombre de tokens détermine directement les frais d’utilisation de l’API et la latence des réponses : plus il y a de tokens, plus le coût est élevé et la vitesse plus faible. En conséquence, les différences d’efficacité du tokenizer correspondent, dans la pratique, à des écarts de portefeuille et d’expérience utilisateur.
Komatsuzaki a également partagé un site qu’il a lui-même conçu, permettant de calculer la quantité de tokens :
L’IA est-elle aussi raciste ? La « language tax » de Claude est la plus élevée, l’hindi en première ligne
Diagramme en barres des multiplicateurs de consommation de Token par langue : OpenAI vs. Anthropic
Les données montrent que les multiplicateurs de tokens d’OpenAI pour les différentes langues restent généralement sous 1,4×, tandis que l’écart chez Anthropic (Claude) est nettement plus marqué :
Hindi : 3,24× (Claude) vs. 1,37× (OpenAI)
Arabe : 2,86× (Claude) vs. 1,31× (OpenAI)
Russe : 2,04× (Claude) vs. 1,31× (OpenAI)
Chinois : 1,71× (Claude) vs. 1,15× (OpenAI)
Autrement dit, si un développeur indien utilise l’API de Claude pour traiter du contenu en hindi, il pourrait payer en réalité plus de trois fois le coût d’une tâche équivalente en anglais, et la vitesse de réponse baissera aussi de manière sensible à cause de l’explosion du nombre de tokens.
Comparaison transversale de six modèles : les modèles locaux chinois dépassent, Gemini est le meilleur
Carte thermique des multiplicateurs de consommation de tokens à travers les langues pour six modèles
Dans un message publié ensuite, Komatsuzaki élargit encore la comparaison en incluant des modèles comme Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6, etc. Les résultats indiquent :
Gemini 3.1 : 1,22× (le plus favorable aux utilisateurs non anglophones)
Qwen 3.6 : 1,23×
OpenAI : 1,33×
DeepSeek V4 : 1,49×
Kimi K2.6 : 1,76×
Anthropic : 2,07× (le moins favorable aux utilisateurs non anglophones)
On constate dans les données que la consommation de tokens pour le chinois est inférieure au niveau de référence en anglais sur Qwen (0,85×), DeepSeek (0,87×) et Kimi (0,81×), ce qui suggère que les modèles locaux chinois ont été optimisés en profondeur pour le chinois. Komatsuzaki le reconnaît d’ailleurs, dans sa réponse : « Je ne m’attendais pas à ce que Claude soit aussi mauvais et aussi déséquilibré. »
Les craintes de la communauté : « l’écart de coûts » est un problème majeur dans le processus d’adoption de l’IA
Les résultats de l’expérience ont suscité un fort écho sur le réseau X. De nombreux développeurs non anglophones indiquent qu’en pratique, pour un même document en chinois ou en coréen, le traitement par Claude coûte effectivement bien plus cher que par Gemini.
La discussion s’étend aussi aux causes techniques : les écarts d’efficacité du tokenizer proviennent principalement du fait que les données d’entraînement sont dominées par des contenus en anglais et écrits en alphabet latin, ce qui implique que la compréhension du modèle des autres systèmes d’écriture est plus limitée. Ainsi, chaque caractère ou mot exige davantage de tokens. Même si des centaines de millions de personnes utilisent l’hindi dans le monde, la rareté de données d’entraînement de haute qualité, combinée à la complexité morphologique de l’écriture, en fait le groupe affichant les coûts d’utilisation les plus élevés pour l’IA.
Certains internautes estiment aussi que la clientèle principale d’Anthropic serait davantage orientée vers des entreprises anglophones et des scénarios de développement de code, ce qui diminuerait la motivation à optimiser pour plusieurs langues. À l’inverse, OpenAI serait plus à l’aise avec le traitement du contenu linguistique, résumant : « L’IA devrait être une technologie d’égalité et de démocratisation, mais les utilisateurs non anglophones paient en réalité pour de la discrimination linguistique. »
Désormais, la controverse autour de la conception des tokenizers dépasse la simple question technique : elle reflète aussi un déséquilibre dans la manière dont l’industrie de l’IA s’étend à l’échelle mondiale.
Cet article sur le fait que Claude fera-t-il payer une taxe linguistique ? L’étude révèle que la traduction de contenus en chinois, japonais et coréen consomme jusqu’à près de trois fois plus de tokens est apparu pour la première fois sur Chaîne Info ABMedia.
Related News
BioMysteryBench : Mythos résout le mystère de l'impossible 29,6 %
Oxford Internet Institute : un entraînement bienveillant fait grimper le taux d’erreur de l’IA de 7,43 points de pourcentage
Le vice-président de Nvidia, chargé de l’apprentissage profond, estime que les dépenses en calcul pour l’IA dépasseront les coûts des salaires du personnel.
Les analystes des semi-conducteurs voient une tendance haussière de l’IA : « au moins encore trois ans » : le conditionnement avancé est le principal goulot d’étranglement de l’industrie
Un ancien trader de fonds spéculatifs légendaire parle des ratios P/E des actions américaines : pour ceux qui achètent le marché global au cours des prochaines années, il sera très difficile d’en tirer des bénéfices