Peneliti AI Aran Komatsuzaki baru-baru ini memublikasikan analisis eksperimen di platform X yang membongkar masalah serius pada tokenizer (pemenggal kata) dari model bahasa besar arus utama (LLM): adanya “pajak non-bahasa Inggris (non-English tax)”. Bahkan, untuk materi bahasa Tionghoa, Jepang, dan Korea, model Claude milik Anthropic perlu mengonsumsi token hingga hampir tiga kali lipat, memicu perbincangan di komunitas.
Metode eksperimen: gunakan makalah klasik untuk mengukur selisih biaya bahasa
Komatsuzaki memakai artikel klasik 《The Bitter Lesson》 sebagai bahan. Ia menerjemahkannya ke dalam berbagai bahasa seperti bahasa Tionghoa, Hindi, Arab, Korea, dan Jepang, lalu memasukkannya ke tokenizer berbagai model untuk menghitung jumlah konsumsi token. Eksperimen menggunakan versi bahasa Inggris OpenAI sebagai standar (1,0×), kemudian membandingkan efisiensi tiap model dalam memproses berbagai bahasa melalui perbandingan rasio yang distandardisasi.
Jumlah token secara langsung menentukan biaya penggunaan API dan latensi respons; semakin banyak token berarti biaya makin tinggi dan kecepatan makin lambat. Karena itu, perbedaan efisiensi tokenizer pada praktiknya adalah perbedaan di kantong pengguna dan pengalaman penggunaan.
Komatsuzaki juga menyertakan situs buatan sendiri yang bisa menghitung jumlah token:
Apakah AI juga punya diskriminasi ras? Claude adalah yang paling tinggi pajak bahasanya, bahasa Hindi menjadi yang pertama jadi korban
Grafik batang konsumsi Token per bahasa: OpenAI vs. Anthropic
Data menunjukkan bahwa rasio token OpenAI untuk berbagai bahasa umumnya dikendalikan dalam batas 1,4×, sedangkan selisih pada Anthropic (Claude) sangat mencolok:
Bahasa Hindi: 3,24× (Claude) vs. 1,37× (OpenAI)
Bahasa Arab: 2,86× (Claude) vs. 1,31× (OpenAI)
Bahasa Rusia: 2,04× (Claude) vs. 1,31× (OpenAI)
Bahasa Tionghoa: 1,71× (Claude) vs. 1,15× (OpenAI)
Dengan kata lain, jika seorang pengembang asal India menggunakan API Claude untuk memproses konten bahasa Hindi, biaya yang dibayar bisa jadi lebih dari tiga kali dibanding tugas berbahasa Inggris yang sama, dan kecepatan respons juga akan turun secara signifikan akibat pembengkakan token.
Perbandingan lintas enam model: model lokal Tiongkok melampaui, Gemini tampil terbaik
Peta panas rasio konsumsi Token lintas bahasa dari enam model
Postingan lanjutan yang dirilis Komatsuzaki memperluas cakupan perbandingan, dengan menyertakan model seperti Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6, dan lainnya. Hasilnya menunjukkan:
Gemini 3.1: 1,22× (paling ramah untuk pengguna non-bahasa Inggris)
Qwen 3.6: 1,23×
OpenAI: 1,33×
DeepSeek V4: 1,49×
Kimi K2.6: 1,76×
Anthropic: 2,07× (paling tidak ramah untuk pengguna non-bahasa Inggris)
Data memperlihatkan bahwa token untuk bahasa Tionghoa pada Qwen (0,85×), DeepSeek (0,87×), dan Kimi (0,81×) lebih rendah dari patokan bahasa Inggris, yang menunjukkan bahwa model-model lokal Tiongkok sudah mengoptimalkan bahasa Tionghoa secara mendalam. Komatsuzaki sendiri dalam balasannya mengakui: “Saya tidak menyangka Claude bisa sejauh ini buruk dan tidak seimbang.”
Kekhawatiran komunitas: “kesenjangan biaya” adalah masalah serius dalam proses AI menjadi arus utama
Hasil eksperimen menimbulkan resonansi kuat di komunitas X; banyak pengembang non-bahasa Inggris menyatakan bahwa dalam penggunaan nyata, dokumen berbahasa Tionghoa atau Korea yang sama diproses oleh Claude biayanya memang jauh lebih tinggi dibanding Gemini.
Diskusi juga melebar ke akar teknis: perbedaan efisiensi tokenizer terutama berasal dari data pelatihan yang didominasi konten berbahasa Inggris dan huruf Latin, sehingga tingkat pemahaman model terhadap sistem tulisan lain lebih rendah. Akibatnya, setiap karakter atau kosakata perlu mengonsumsi lebih banyak token. Walaupun pengguna bahasa Hindi di seluruh dunia mencapai ratusan juta, kelangkaan materi pelatihan berkualitas tinggi ditambah struktur tulisan yang rumit membuatnya menjadi kelompok dengan biaya penggunaan AI tertinggi.
Sebagian netizen berpendapat bahwa pelanggan utama Anthropic cenderung pengguna perusahaan berbahasa Inggris dan skenario pengembangan kode, sehingga tidak ada dorongan kuat untuk optimasi multibahasa. Sebaliknya, OpenAI dinilai lebih jago menangani konten bahasa. Pernyataan ringkasnya: “AI seharusnya teknologi yang setara dan demokratis, tapi pengguna non-bahasa Inggris justru membayar untuk diskriminasi bahasa.”
Kini, kontroversi seputar desain tokenizer ini bukan lagi sekadar masalah teknis, melainkan juga mencerminkan ketidakseimbangan dalam ekspansi global industri AI.
Apakah artikel ini akan membuat Claude memungut pajak bahasa? Studi mengungkap bahwa konten terjemahan Tionghoa-Jepang-Korea menghabiskan token paling banyak hingga mendekati tiga kali lipat, pertama kali muncul di 鏈新聞 ABMedia.
Related News
BioMysteryBench: Mythos memecahkan masalah yang tak terpecahkan, 29,6%
Pascasarjana Internet Universitas Oxford: Pelatihan yang ramah membuat tingkat kesalahan AI naik sebesar 7,43 poin persentase
Wakil Presiden Senior untuk Pembelajaran Mendalam di Nvidia percaya bahwa pengeluaran komputasi AI melampaui biaya gaji tenaga manusia
Penganalisis semikonduktor optimistis dengan tren AI “setidaknya masih akan berjalan selama tiga tahun”: advanced packaging adalah hambatan utama industri
Perusahaan perdagangan dana lindung nilai legendaris membahas rasio P/E saham AS: bagi mereka yang membeli indeks pasar besar di tahun-tahun mendatang, sangat sulit untuk memperoleh keuntungan