DeepSeek dan Xiaomi Memotong Harga Model AI Hingga 99% Sementara Lab AS Menaikkan Biaya

DeepSeek memangkas harga API sebesar 75% pada DeepSeek V4-Pro menjadi permanen pada 22 Mei 2026, mengunci biaya output di $0,87 per juta token. Xiaomi menyusul pada 26 Mei, memotong harga API MiMo-V2.5 hingga 99% untuk input yang di-cache, dengan model Pro kini pada $0,0036 per juta token untuk input yang di-cache. Pemotongan harga ini berasal dari optimasi teknis pada framework inferensi dan arsitektur KV cache. Pemotongan tersebut datang ketika OpenAI menggandakan harga output GPT-5.5 menjadi $30 per juta token saat peluncuran pada akhir April, dan Anthropic mengirim Claude Opus 4.7 dengan tokenizer baru yang menghasilkan hingga 35% lebih banyak token untuk teks input yang sama, berpotensi menaikkan biaya aktual meski tarif tetap tidak berubah.

Perubahan Harga Permanen yang Diumumkan

DeepSeek V4-Pro kini dibanderol $0,435 untuk input dan $0,87 untuk output per juta token. Diskon 75%, yang sebelumnya dijadwalkan berakhir, menjadi permanen lebih awal pekan ini. MiMo-V2.5-Pro milik Xiaomi menyamai tarif $0,435/$0,87 per juta token yang sama setelah pemotongan pada 26 Mei. Peluang cache pada MiMo-V2.5 turun menjadi $0,0036 per juta token. Peningkatan penagihan Xiaomi memberi pengguna 5 hingga 8 kali lebih banyak token dengan harga yang sama. Paket Max senilai $100 kini menyediakan 82 miliar token, naik dari 1,6 miliar.

Implementasi Teknis di Balik Pemotongan Harga

Fuli Luo, kepala tim MiMo Xiaomi dan mantan pengembang inti DeepSeek yang turut membangun DeepSeek-V2, memublikasikan penjelasan teknis di X pada 27 Mei. Framework inferensi kini mendukung optimasi hierarkis KV cache untuk SWA. Pengujian mesin inferensi produksi menunjukkan optimasi ini meningkatkan kapasitas token yang di-cache sekitar lima kali. Sistem menurunkan biaya penyimpanan dan pemrosesan sekitar 80%. "Dengan menjalankan mesin inferensi produksi kami pada harga API yang baru diturunkan ini, mesin kami beroperasi pada kapasitas hampir penuh, dan kami masih bisa pada dasarnya impas," tulis Luo.

DeepSeek V4 menggunakan dua tipe perhatian yang saling diselingi: satu mengompresi setiap empat token untuk selective attention, dan lainnya meng-collapse setiap 128 token untuk konteks global. Pada satu juta token konteks, KV cache V4-Pro berukuran 10% dari pendahulunya. Inferensi satu token berjalan pada 27% dari biaya komputasi sebelumnya.

Patokan Kinerja dan Perbandingan Harga

DeepSeek V4-Pro meraih 80,6% pada SWE-Verified. Claude Opus 4.6 meraih 80,8% pada benchmark yang sama untuk mengukur penyelesaian isu GitHub yang nyata. Kesenjangan harga antara kedua model: 34x pada output. DeepSeek V4-Pro adalah model dengan 1,6 triliun parameter.

Claude Opus 4.7 dikenakan biaya $5 per juta token input dan $25 per juta token output. GPT-5.5 berjalan pada $30 per juta token output, dua kali tarif pendahulunya. Gemini 2.5 Pro berada di $1,25 input dan $10 output per juta token.

MiniMax M2.7 dikenakan $0,30 untuk input dan $1,20 untuk output per juta token. Kimi K2.5 dari Moonshot AI, dengan 76,8% pada SWE-bench Verified, berjalan di $0,60 input dan $2,50 output. GLM-5.1 dari Z.AI mengungguli Claude Opus 4.6 pada benchmark coding pada Q2 2026. Empat model frontier Tiongkok dikirim dalam rentang 12 hari pada awal Mei, semuanya di bawah sepertiga biaya per-token Opus 4.7. Biaya DeepSeek V4-Pro untuk token input yang di-cache adalah $0,003625 per juta token.

Pemosisian Pasar di Seluruh Penyedia

Kesenjangan harga Q2 2026 antara model frontier Tiongkok dan Amerika berkisar dari 15x hingga 30x, bergantung pada perbandingan model. Patokan dasar ini ada sebelum diskon cache. Anthropic mempertahankan tarif Claude Opus 4.7 tetap, tetapi mengirimkannya dengan tokenizer baru yang mampu menghasilkan hingga 35% lebih banyak token untuk teks input yang sama.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar