Pesan Gate News, 29 April — Peneliti AI Aran Komatsuzaki melakukan analisis perbandingan efisiensi tokenisasi di enam model AI besar dengan menerjemahkan karya perintis Rich Sutton “The Bitter Lesson” ke sembilan bahasa dan memprosesnya melalui tokenizer OpenAI, Gemini, Qwen, DeepSeek, Kimi, dan Claude. Dengan menjadikan jumlah token versi bahasa Inggris di OpenAI sebagai baseline (1x), studi tersebut mengungkap perbedaan yang signifikan: memproses konten yang sama dalam bahasa Tiongkok memerlukan 1.65x token pada Claude, dibandingkan hanya 1.15x pada OpenAI. Bahasa Hindi menunjukkan hasil yang lebih ekstrem pada Claude, melebihi baseline lebih dari 3x. Anthropic menempati peringkat terendah di antara enam model yang diuji.
Yang paling kritis, ketika teks Tiongkok yang identik diproses di berbagai model—semuanya diukur terhadap baseline bahasa Inggris yang sama—hasilnya justru berbeda secara dramatis: Kimi hanya mengonsumsi 0.81x token (bahkan lebih sedikit dari bahasa Inggris), Qwen 0.85x, sedangkan Claude memerlukan 1.65x. Kesenjangan ini mengungkap masalah murni efisiensi tokenisasi, bukan masalah bahasa yang melekat. Model-model bahasa Tiongkok menunjukkan efisiensi yang lebih baik dalam memproses bahasa Tiongkok, yang mengisyaratkan bahwa perbedaan tersebut berasal dari optimisasi tokenizer, bukan dari bahasa itu sendiri.
Implikasi praktis bagi pengguna sangat besar: konsumsi token yang meningkat secara langsung menaikkan biaya API, memperpanjang latensi respons model, dan menghabiskan jendela konteks lebih cepat. Efisiensi tokenisasi bergantung pada komposisi linguistik dari data pelatihan suatu model—model yang dilatih terutama pada bahasa Inggris mengompresi teks bahasa Inggris lebih efisien, sementara bahasa dengan representasi data yang lebih rendah ditokenisasi menjadi fragmen-fragmen yang lebih kecil dan kurang efisien.
Kesimpulan Komatsuzaki menegaskan sebuah prinsip mendasar: ukuran pasar menentukan efisiensi tokenisasi. Pasar yang lebih besar menerima optimisasi yang lebih baik, sementara bahasa yang kurang terwakili menghadapi biaya token yang jauh lebih tinggi.
Related News