Gelombang AI mendorong kebutuhan memori dan harga ikut naik, namun pihak luar masih khawatir apakah HBM akan mengulang “siklus” kejatuhan seperti yang terjadi pada DRAM di masa lalu—yakni setelah puncak permintaan, berbalik tajam dengan cepat? Penganalisis arsitektur semikonduktor fin menilai logika permintaan HBM sudah terlepas dari pola industri memori tradisional, dan sedang melakukan penetapan ulang harga melalui token.
(Apakah kenaikan memori mulai melambat? Penilaian institusi: kenaikan Q2 menyempit menjadi 30%, dan semester II makin mereda)
Memori di era CPU: pelengkap yang bisa ada bisa tidak
fin menyebutkan, pada era ketika CPU mendominasi komputasi, peran memori DDR selalu hanya sebagai peran pendukung. Insinyur CPU mengembangkan seperangkat teknik arsitektur untuk menutup latensi memori, termasuk desain superskalar, cache multi-level, penamaan ulang register, dan lainnya—agar prosesor tetap mempertahankan performa tinggi tanpa bergantung pada syarat memori berkecepatan tinggi:
Patokan pengalaman industri adalah, meskipun bandwidth DDR langsung berlipat dua, peningkatan performa keseluruhan CPU umumnya tidak lebih dari dua puluh persen.
Arsitektur seperti inilah yang secara langsung membentuk ritme pertumbuhan industri DRAM selama puluhan tahun terakhir. Dari DDR3 ke DDR5, dibutuhkan waktu hingga lima belas tahun; dalam sepuluh tahun terakhir, kapasitas DDR untuk PC umum naik dari 7 hingga 8 GB menjadi sekitar 23 GB, hanya tumbuh tiga kali dalam sepuluh tahun. Sumber keuntungan utama produsen DRAM berasal dari ukuran kapasitas, sementara peningkatan bandwidth lebih berfungsi sebagai cara menaikkan harga per unit.
Di era CPU, memori adalah salah satu komponen dengan utilitas marjinal terendah dalam industri chip, dan fluktuasi siklik adalah hal yang lazim sekaligus nasib.
Tiba era inferensi AI, standar nilai memori pun ditulis ulang dari akar
Namun, ketika pemeran utama komputasi bergeser ke mesin inferensi AI, standar penilaiannya ikut berubah. Produsen chip kini bersaing soal berapa kali operasi floating-point yang bisa dieksekusi per detik; kini, satu-satunya KPI inti di era AI adalah: berapa banyak Token yang bisa dihasilkan per biaya per unit dan per daya per unit.
Konsep “AI factory” yang diajukan CEO NVIDIA, Huang Renxun, menggambarkan logika baru ini secara tepat: keberadaan AI factory artinya memproduksi paling banyak Token dengan biaya serendah mungkin, sekaligus mendorong kecepatan keluaran Token sampai batas maksimal. Target optimasi meluas dari satu dimensi menjadi banyak: perlu memaksimalkan total throughput Token, sekaligus mengejar kecepatan output Token per permintaan.
Perubahan KPI inilah yang menjadi titik balik nasib HBM.
Rumus throughput token, membuka prinsip pertama kebutuhan HBM
fin mengurai throughput Token dalam inferensi AI menjadi perkalian dua parameter: “jumlah batch permintaan yang diproses secara bersamaan × kecepatan generasi Token rata-rata per permintaan.” Dengan menelusuri hambatan dari masing-masing parameter, jawabannya mengarah pada satu komponen yang sama.
Hambatan jumlah batch terletak pada kapasitas penyimpanan HBM. Setiap permintaan inferensi membawa KV cache sendiri, yakni mekanisme untuk menyimpan status antara dalam proses inferensi model, dan cache tersebut harus disimpan di HBM secara real time agar setiap kali model menghasilkan satu Token bisa membaca kembali dengan cepat berulang kali. Semakin besar skala batch, semakin besar ruang penyimpanan HBM yang dibutuhkan; keduanya berbanding lurus.
Hambatan kecepatan Token terletak pada bandwidth HBM. Pada tahap decoding, setiap Token yang dihasilkan memerlukan pembacaan berulang bobot startup yang besar dan KV cache. Kecepatan baca menentukan efisiensi pembuatan Token, dan batas kecepatan baca adalah bandwidth HBM.
Ia mengatakan hubungan ini bisa dianalogikan seperti bus shuttle bandara: kapasitas HBM adalah ukuran bak/ruang bus, yang menentukan berapa banyak penumpang yang bisa dibawa sekali jalan; bandwidth HBM adalah lebar pintu bus, yang menentukan seberapa cepat penumpang naik dan turun; total throughput pengangkutan penumpang adalah hasil kali ukuran bak bus dengan kecepatan jalan. Dari sini diturunkan prinsip pertama kebutuhan hardware inferensi AI:
Throughput Token = Kapasitas HBM × Bandwidth HBM
Jika tiap generasi GPU ingin mempertahankan pertumbuhan throughput Token sebesar dua kali, maka perkalian antara kapasitas HBM dan bandwidth HBM harus berlipat dua setiap generasi.
Optimasi perangkat lunak tak bisa menyelesaikan masalah, kebutuhan HBM terkunci pada lintasan eksponensial
Menghadapi kesimpulan ini, bantahan paling umum di pasar adalah: bukankah optimasi perangkat lunak dapat mengurangi ketergantungan pada HBM? Jawabannya adalah efisiensi perangkat lunak dan kemajuan spesifikasi perangkat keras adalah dua dimensi yang sepenuhnya independen, dan keduanya tidak saling menggantikan. Ini seperti optimasi perangkat lunak CPU sedetail apa pun, tetap tidak bisa menghentikan Intel atau AMD agar pada setiap generasi harus menyerahkan skor benchmark yang lebih tinggi; kalau tidak, produk tidak akan laku.
Logika GPU sama: selama permintaan global terhadap Token terus berkembang, upaya untuk throughput Token yang lebih tinggi tidak akan berhenti, dan kebutuhan agar HBM berkembang di dua sisi juga tidak akan berhenti.
Yang lebih penting, tekanan ini bukan datang dari dorongan kondisi makro dari luar, melainkan kebutuhan endogen dari sisi pasokan. Selama NVIDIA masih menjual GPU generasi berikutnya, pasti akan memberi tekanan kepada SK Hynix, Samsung, dan Micron untuk menuntut lonjakan serentak pada kapasitas dan bandwidth setiap generasi HBM. Sebab “langit-langit” HBM adalah “langit-langit” performa GPU.
Jika throughput Token tiap generasi GPU NVIDIA dari A100 hingga Rubin Ultra dipetakan bersamaan dengan nilai “Kapasitas HBM × Bandwidth HBM” yang setara pada satu bidang koordinat logaritmik, tingkat kesesuaian dua kurva akan mengejutkan. Ini bukan kebetulan historis, melainkan kepastian dari optimasi sistem.
HBM mengucapkan selamat tinggal pada takdir siklik, namun logika penetapan harga pasar masih perlu ditinjau ulang
Berdasarkan penurunan di tingkat arsitektur di atas, perbedaan hakiki HBM dan DRAM tradisional kini sudah jelas. Memori tradisional adalah pelengkap dalam industri chip, penggerak permintaannya lemah; begitu jadwal ekspansi kapasitas melampaui pemulihan permintaan, penurunan harga secara siklik datang seperti yang diperkirakan.
Namun, permintaan HBM telah “dikunci” oleh logika fisik arsitektur inferensi AI pada jalur pertumbuhan eksponensial. Ini tidak memiliki hubungan sebab-akibat langsung dengan dinamika panas-dingin pasar AI ataupun siklus bisnis makro ekonomi secara keseluruhan.
Tentu saja, masalah yang sebenarnya bukan di sisi permintaan, melainkan di sisi pasokan: apakah tiga pemain besar, SK Hynix, Samsung, dan Micron, mampu menahan dorongan ekspansi buta yang berulang selama puluhan tahun saat menghadapi permintaan kuat, serta mencegah kembali tertanamnya bencana siklus akibat pasokan yang berlebih? Jawaban atas pertanyaan itu akan menjadi variabel kunci bagi apakah siklus memori kali ini bisa bertahan dalam jangka panjang.
(Apakah saham memori yang ambruk masih bisa dibeli? Analis Samsung Securities: koreksi di dalam siklus, bukan puncak kondisi pasar)
Artikel ini mematahkan mitos siklik! Satu rumus membedah struktur kebutuhan HBM: mengapa memori hanya akan terus naik? Pertama kali muncul di Chain News ABMedia.
Related News
Analis Morgan Stanley memprediksi seluruh lini iPhone 18 akan naik harga 100 dolar AS, dengan biaya memori sebagai penyebab utama lonjakan.
Guo Ming-Chi membahas kesenjangan TSMC CoWoS vs Intel EMIB, mengungkap Google pernah meminta untuk melewati MediaTek dengan mengajukan sendiri penempatan chip
CryptoQuant: Kenaikan BTC pada bulan April didorong kontrak berjangka berkelanjutan, memperingatkan risiko koreksi
Penerima manfaat terbesar dari dampak meluas CoWoS TSMC? Intel konon membukukan tingkat keberhasilan EMIB 90%, advanced packaging jadi kunci kebangkitan
Setelah HBM, apakah bottleneck memori AI adalah HBF? Pemenang Penghargaan Turing David Patterson: Inferensi akan mendefinisikan ulang arsitektur penyimpanan