Claude 会-t-il imposer une taxe sur la langue ? Une étude révèle que la traduction du contenu chinois, japonais et coréen consommerait jusqu’à près de 3 fois plus de tokens

ChainNewsAbmedia

2026-04-30 07:04:55

Le chercheur en IA Aran Komatsuzaki a récemment publié une analyse expérimentale sur la plateforme X, révélant un problème grave de « taxe non anglaise (non-English tax) » au niveau des tokenizers (segmenteurs) des principaux grands modèles de langage (LLM). Parmi eux, les modèles Claude de l’écosystème d’Anthropic nécessitent même de consommer jusqu’à près de trois fois plus de tokens pour des contenus en chinois, coréen et japonais, ce qui a déclenché de vifs débats au sein de la communauté.

Méthode d’expérimentation : quantifier les écarts de coût linguistique avec un article classique

Komatsuzaki s’appuie sur l’article classique « The Bitter Lesson », en le traduisant en chinois, en hindi, en arabe, en coréen, en japonais, etc., puis en faisant passer chaque version dans les tokenizers de divers modèles afin de calculer le nombre de tokens consommés. L’expérience prend comme référence la version anglaise d’OpenAI (1,0×) et compare, via des multiplicateurs standardisés, l’efficacité de chaque modèle selon la langue.

Le nombre de tokens détermine directement les frais d’utilisation de l’API et la latence des réponses : plus il y a de tokens, plus le coût est élevé et la vitesse plus faible. En conséquence, les différences d’efficacité du tokenizer correspondent, dans la pratique, à des écarts de portefeuille et d’expérience utilisateur.

Komatsuzaki a également partagé un site qu’il a lui-même conçu, permettant de calculer la quantité de tokens :

L’IA est-elle aussi raciste ? La « language tax » de Claude est la plus élevée, l’hindi en première ligne

Diagramme en barres des multiplicateurs de consommation de Token par langue : OpenAI vs. Anthropic

Les données montrent que les multiplicateurs de tokens d’OpenAI pour les différentes langues restent généralement sous 1,4×, tandis que l’écart chez Anthropic (Claude) est nettement plus marqué :

Hindi : 3,24× (Claude) vs. 1,37× (OpenAI)

Arabe : 2,86× (Claude) vs. 1,31× (OpenAI)

Russe : 2,04× (Claude) vs. 1,31× (OpenAI)

Chinois : 1,71× (Claude) vs. 1,15× (OpenAI)

Autrement dit, si un développeur indien utilise l’API de Claude pour traiter du contenu en hindi, il pourrait payer en réalité plus de trois fois le coût d’une tâche équivalente en anglais, et la vitesse de réponse baissera aussi de manière sensible à cause de l’explosion du nombre de tokens.

Comparaison transversale de six modèles : les modèles locaux chinois dépassent, Gemini est le meilleur

Carte thermique des multiplicateurs de consommation de tokens à travers les langues pour six modèles

Dans un message publié ensuite, Komatsuzaki élargit encore la comparaison en incluant des modèles comme Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6, etc. Les résultats indiquent :

Gemini 3.1 : 1,22× (le plus favorable aux utilisateurs non anglophones)

Qwen 3.6 : 1,23×

OpenAI : 1,33×

DeepSeek V4 : 1,49×

Kimi K2.6 : 1,76×

Anthropic : 2,07× (le moins favorable aux utilisateurs non anglophones)

On constate dans les données que la consommation de tokens pour le chinois est inférieure au niveau de référence en anglais sur Qwen (0,85×), DeepSeek (0,87×) et Kimi (0,81×), ce qui suggère que les modèles locaux chinois ont été optimisés en profondeur pour le chinois. Komatsuzaki le reconnaît d’ailleurs, dans sa réponse : « Je ne m’attendais pas à ce que Claude soit aussi mauvais et aussi déséquilibré. »

Les craintes de la communauté : « l’écart de coûts » est un problème majeur dans le processus d’adoption de l’IA

Les résultats de l’expérience ont suscité un fort écho sur le réseau X. De nombreux développeurs non anglophones indiquent qu’en pratique, pour un même document en chinois ou en coréen, le traitement par Claude coûte effectivement bien plus cher que par Gemini.

La discussion s’étend aussi aux causes techniques : les écarts d’efficacité du tokenizer proviennent principalement du fait que les données d’entraînement sont dominées par des contenus en anglais et écrits en alphabet latin, ce qui implique que la compréhension du modèle des autres systèmes d’écriture est plus limitée. Ainsi, chaque caractère ou mot exige davantage de tokens. Même si des centaines de millions de personnes utilisent l’hindi dans le monde, la rareté de données d’entraînement de haute qualité, combinée à la complexité morphologique de l’écriture, en fait le groupe affichant les coûts d’utilisation les plus élevés pour l’IA.

Certains internautes estiment aussi que la clientèle principale d’Anthropic serait davantage orientée vers des entreprises anglophones et des scénarios de développement de code, ce qui diminuerait la motivation à optimiser pour plusieurs langues. À l’inverse, OpenAI serait plus à l’aise avec le traitement du contenu linguistique, résumant : « L’IA devrait être une technologie d’égalité et de démocratisation, mais les utilisateurs non anglophones paient en réalité pour de la discrimination linguistique. »

Désormais, la controverse autour de la conception des tokenizers dépasse la simple question technique : elle reflète aussi un déséquilibre dans la manière dont l’industrie de l’IA s’étend à l’échelle mondiale.

Cet article sur le fait que Claude fera-t-il payer une taxe linguistique ? L’étude révèle que la traduction de contenus en chinois, japonais et coréen consomme jusqu’à près de trois fois plus de tokens est apparu pour la première fois sur Chaîne Info ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.