Sander Dieleman dari DeepMind, yang terkenal dengan model difusinya, langsung mempromosikannya di Twitter, mengatakan ini adalah kisah LLM yang menarik:

Scaling law asli salah karena bug, kemungkinan besar membuat industri membuang-buang daya komputasi dalam jumlah besar pada sekumpulan model yang "terlalu besar, kurang terlatih".

Satu bug, membakar dua tahun.

Ketika bug terungkap, yang kita lihat bukan hanya lubang hitam komputasi, tetapi juga batas kecerdasan yang dibentuk kembali oleh bahasa itu sendiri, jauh lebih dalam dari yang dibayangkan.

Scaling Law adalah versi LLM dari "Teori Geosentris"

Pada tahun 2020, OpenAI menyimpulkan: Dalam anggaran komputasi tetap, Anda harus memprioritaskan membuat model lebih besar, bukan memberinya lebih banyak data.

Secara rumus, jumlah parameter optimal sebanding dengan pangkat 0,73 dari komputasi — parameter adalah variabel yang harus didorong lebih keras.

Kalimat ini langsung mendefinisikan penampilan generasi GPT-3. Tumpuk parameter. Tumpuk sampai mati. 175 miliar.

Ini memberi tahu pengembang di seluruh dunia: Jangan tanya, tanya saja tumpuk parameter; asalkan Anda membuat model cukup besar, keajaiban akan terjadi.

Dua tahun kemudian, DeepMind meluncurkan Chinchilla, menjungkirbalikkan kesimpulan ini: Model dan data harus diperbesar bersama-sama dengan kepentingan yang kira-kira sama, sekitar 20 token per parameter lebih efisien.

Mereka melatih Chinchilla dengan 70 miliar parameter, memberinya 1,4 triliun token — ukuran kurang dari setengah GPT-3, data empat kali lipatnya.

Hasilnya, dengan anggaran komputasi yang sama, secara menyeluruh mengungguli Gopher dengan 280 miliar parameter tetapi hanya diberi 300 miliar token.

Diterjemahkan ke bahasa manusia: Dengan uang yang sama, satu dibesarkan menjadi "palsu gemuk", yang lain menjadi petarung ramping.

Tiga tahun kemudian,翁荔 (Weng Li), alumni Peking University, membahas secara mendalam penjelasan utama dalam penelitian selanjutnya tentang perbedaan keduanya, yaitu perbedaan terletak pada cara mereka menghitung jumlah total parameter.

Dan ini belum selesai. Bahkan Chinchilla yang "benar" itu sendiri tidak bersih.

Pada tahun 2024, Besiroglu dkk. menggali data poin dari artikel asli Chinchilla dan menjalankannya kembali, menemukan bahwa fitting mereka sendiri juga menyembunyikan bug:

Skala loss di optimizer diatur terlalu tinggi, merata-ratakan Huber loss berdasarkan sampel, bukan menjumlahkannya, sehingga fitting berhenti lebih awal.

Artikel yang mengoreksi bug, membawa bug lain sendiri.

Sampai di sini, "prinsip pertama" yang sering diucapkan banyak orang tiba-tiba menjadi goyah.

Yang disebut Scaling Law, sejak awal bukanlah hukum fisika yang kokoh seperti tiga hukum Newton, itu hanyalah kurva yang dipasangkan secara empiris.

Ketika Diogo Almeida menganggap kebenaran tidak seperti itu, bukan metodenya yang berbeda, "adalah scaling law versi awal itu sendiri memiliki bug."

Tiga Trik OpenAI Menipu Rekan AI Global?

Untuk membuat kebohongan yang dipercaya oleh AI global, hanya perlu tiga langkah.

Langkah pertama: Kurung data.

Makalah OpenAI memberi semua model — apakah itu anak yang masih belajar berjalan (model kecil) atau raksasa yang sudah dewasa — "porsi makan" yang persis sama. Sekitar 130B token data.

Model kecil karena itu "kenyang" atau bahkan "kekenyangan", sementara model besar yang benar-benar membutuhkan data dalam jumlah besar untuk mengisi kapasitasnya, mengalami kekurangan gizi parah dengan anggaran token yang sama.

Makalah Chinchilla kemudian dengan tajam menunjukkan: Mereka menggunakan "jumlah token pelatihan tetap dan jadwal laju pembelajaran" untuk semua model.

Ini seperti menyuruh anak TK dan mahasiswa doktoral mengerjakan soal yang sama, dalam waktu yang sama, lalu menyatakan "hasil hanya terkait dengan bakat."

Langkah kedua: Penurunan LR yang menutup telinga.

Mereka menggunakan peluruhan laju pembelajaran kosinus (Cosine Decay), membuat laju pembelajaran mendekati nol secara halus saat pelatihan mendekati akhir.

Saat pelatihan mendekati akhir yang ditentukan, laju pembelajaran ditekan secara artifisial ke nol, kemajuan model secara alami "datar".

Ketika kurva datar, tampak seperti: Model ini sudah belajar sampai batas, memberi data lebih tidak berguna.

Para peneliti kemudian menyimpulkan: "Menambah data tidak berguna, model sudah jenuh."

Ini bukan batas model, ini laju pembelajaran yang secara artifisial memutus jalur pertumbuhan model. Ini menciptakan ilusi sempurna: Kinerja sudah mencapai langit-langit, menambah data tidak berguna.

Tapi sekarang kita tahu, model besar itu belum sampai batas.

Langkah ketiga: Arogansi otoritas.

Langkah ketiga, dan yang paling licik: Dalam makalah ditulis satu kalimat, hasilnya "pada dasarnya tidak tergantung pada jadwal laju pembelajaran".

Meskipun banyak orang, termasuk Diogo Almeida yang saat itu di OpenAI, samar-samar merasakan sesuatu yang tidak beres, secara teknis kesimpulan ini benar dalam batas token tetap.

Tapi itu tidak berlaku untuk dunia ideal "data tak terbatas" yang sebenarnya ingin digambarkan oleh scaling law.

Mereka mengambil kebenaran parsial dalam kondisi terbatas sebagai hukum universal alam semesta.

Tiga langkah digabungkan, Anda mendapatkan hukum yang salah dan sangat sulit di-debug.

Bahkan Diogo sendiri mengakui: Saat itu dia juga bekerja di OpenAI untuk optimasi, dan tidak melihat bug itu — kurva laju pembelajaran itu terlihat seperti "pengaturan yang cermat", siapa yang akan curiga?

GPU Terbuang Percuma, Alokasi Komputasi Salah Besar

Dipandu oleh formula salah OpenAI, industri AI memasuki era "usaha keras menghasilkan keajaiban."

Ini berarti selama beberapa tahun terakhir, pikiran paling cerdas dunia, komputasi paling langka, semuanya terbuang pada ekspansi skala yang tidak efektif.

Ini bukan hanya masalah uang, ini adalah perlombaan hidup-mati menuju AGI (Kecerdasan Umum Buatan), di mana umat manusia, karena pengaturan laju pembelajaran, secara kolektif berlari ribuan kilometer di jalur yang salah.

Jika penemuan bug membuat hati sakit, maka refleksi mendalam yang muncul kemudian membuat merinding.

Peneliti Adam Zachary Wasserman menunjukkan titik buta yang diabaikan semua orang: Bahkan setelah formula diperbaiki, Scaling Law saat ini hanyalah "Scaling Law Bahasa Inggris."

Dia melakukan eksperimen kontra-intuitif: Melatih model dengan arsitektur dan komputasi yang sama.

Hasilnya, model bahasa Prancis mencapai kemampuan tata bahasa tertentu dengan efisiensi 50 hingga 100 kali lipat lebih tinggi daripada model bahasa Inggris.

Mengapa? Karena bahasa Inggris adalah bahasa yang "miskin secara morfologis."

Terlalu bergantung pada distribusi, membutuhkan model untuk menebak arti kata dalam data besar; sementara bahasa seperti Prancis atau Mandarin, yang kaya morfologi atau strukturnya ketat, kata-kata itu sendiri membawa banyak informasi jelas.

Ini berarti, semua skema alokasi komputasi kita saat ini didasarkan pada bahasa yang paling "boros data" dan paling tidak efisien.

Ketika Anda mengira sedang menjelajahi hukum fisika "kecerdasan umum", Anda sebenarnya hanya mengukur "seberapa boros komputasi bahasa Inggris."

Ini seperti mencoba menetapkan standar nutrisi untuk semua makhluk di alam semesta dengan mempelajari nafsu makan seekor babi — ini bukan hanya prasangka, tetapi juga keterbatasan kognitif.

Kita seharusnya bisa menggunakan model yang lebih kecil, lebih banyak data berkualitas, untuk mencapai kinerja yang lebih kuat.

Kita seharusnya bisa menghemat ribuan listrik dan panas saat menjalankan H100.

Kita seharusnya bisa memasuki era "AI efisien" dua tahun lebih awal.

Sumber artikel: Xinzhiyuan

Peringatan Risiko dan Penafian

Pasar berisiko, investasi harus hati-hati. Artikel ini tidak merupakan saran investasi pribadi, dan tidak mempertimbangkan tujuan investasi khusus, kondisi keuangan, atau kebutuhan pengguna tertentu. Pengguna harus mempertimbangkan apakah pendapat, pandangan, atau kesimpulan dalam artikel ini sesuai dengan situasi spesifik mereka. Investasi berdasarkan ini, tanggung jawab ada pada diri sendiri.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
gStocksTokenizedStocksLive
4,83M Popularitas
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,07M Popularitas
#
IsraelStrikesIranBTCPlunges
68,86K Popularitas
#
PredictWorldCupShare20000U
240,2K Popularitas
#
ETHBreaks1700
152,66M Popularitas

Disematkan

peta situs

OpenAI runtuh! Scaling law versi asli terpapar bug, triliunan daya komputasi terbuang percuma.

Scaling Law adalah versi LLM dari "Teori Geosentris"

Tiga Trik OpenAI Menipu Rekan AI Global?

GPU Terbuang Percuma, Alokasi Komputasi Salah Besar

Topik Trending

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Disematkan