Berita Gate, 24 April — Laporan teknis DeepSeek V4 mengungkap bahwa V4-Flash dan V4-Pro masing-masing telah dipra-latih pada 32T dan 33T token, dua kali lipat dari sekitar 15T token yang digunakan untuk V3. Laporan tersebut mengakui menemui “tantangan ketidakstabilan yang signifikan” selama pelatihan, dengan lonjakan loss yang berulang kali terjadi akibat anomali pada lapisan Mixture-of-Experts (MoE); mekanisme routing itu sendiri memperparah anomali ini, dan rollback sederhana tidak dapat menyelesaikan masalah tersebut.
DeepSeek menerapkan dua solusi yang kini digunakan pada pelatihan aktual: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan tulang punggung dan secara otomatis hanya memicu saat lonjakan loss terdeteksi (menambahkan overhead sekitar 20%), serta SwiGLU Clamping, yang secara langsung menekan anomali dengan mengapit nilai aktivasi pada rentang tetap. Laporan tersebut menyatakan kedua pendekatan efektif, tetapi mengakui “prinsip-prinsip yang mendasarinya masih belum dipahami secara memadai.”
Susan Zhang, peneliti Google DeepMind yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan “menjelaskan keterlambatannya.” Ia menggambarkan dua solusi tersebut sebagai “perban sementara” sambil mengakui transparansi teknis DeepSeek.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
IREN Mengakuisisi Mirantis untuk $625M dalam Kesepakatan Saham Seluruhnya untuk Memperluas Platform Cloud AI
Menurut BlockBeats, IREN Limited menyetujui untuk mengakuisisi perusahaan perangkat lunak infrastruktur cloud Mirantis dengan nilai sekitar $625 juta dalam transaksi seluruhnya berbasis saham pada 5 Mei. Akuisisi ini bertujuan untuk meningkatkan kapabilitas cloud AI IREN dengan menghadirkan kemampuan perangkat lunak dan orkestrasi untuk
GateNews2jam yang lalu
CEO Anthropic: AS Mempertimbangkan Proses Rilis Model AI yang Disederhanakan, Pesaing Tertinggal 1-3 Bulan
Menurut 金十, CEO Anthropic mengungkapkan pada 5 Mei bahwa pemerintah AS tampaknya sedang mempertimbangkan penyederhanaan proses untuk merilis model kecerdasan buatan. CEO tersebut mencatat bahwa kemampuan lab-lab AI besar lainnya mungkin tertinggal dari Anthropic sekitar satu hingga tiga
GateNews2jam yang lalu
Tim SGLang Menyelesaikan Putaran Pendanaan Benih $100M Senilai $400M , Accel Memimpin
Menurut Beating, tim di balik mesin inferensi open-source SGLang telah secara resmi membentuk RadixArk dan menyelesaikan putaran pendanaan seed senilai 100 juta dolar AS dengan valuasi post-money 400 juta dolar AS. Accel memimpin putaran tersebut, dengan Spark Capital sebagai investor co-lead. Pesaing semikonduktor Nvidia (melalui
GateNews2jam yang lalu
OpenAI Memberi Hibah kepada 8.000 Pengembang untuk Meningkatkan Batas Kecepatan Codex hingga 10x sampai 5 Juni
Menurut Beating, OpenAI mengirim email kepada lebih dari 8.000 pengembang yang mendaftar untuk acara offline GPT-5.5 di San Francisco, memberi mereka peningkatan 10x pada batas laju Codex yang berlaku segera hingga 5 Juni. Semua pelamar menerima hadiah apa pun terlepas dari apakah mereka mendapat undangan acara.
GateNews2jam yang lalu
Patungan OpenAI dengan Anthropic dalam pembicaraan untuk mengakuisisi tiga perusahaan layanan AI pada 5 Mei
Menurut Jin 10, usaha patungan OpenAI dengan Anthropic sedang dalam pembicaraan untuk mengakuisisi tiga perusahaan layanan AI pada 5 Mei. Perusahaan yang ditargetkan dilaporkan mencakup perusahaan yang berfokus pada rekayasa dalam layanan AI
GateNews2jam yang lalu
Anthropic Meluncurkan Sepuluh Agen AI untuk Layanan Keuangan pada Hari Selasa
Anthropic meluncurkan sepuluh agen AI baru pada Selasa yang dirancang untuk menangani tugas layanan keuangan, termasuk menyusun presentasi rapat klien, meninjau laporan keuangan, dan mengeskalasi kasus untuk ditinjau kepatuhan. Alat tersebut menargetkan para profesional di perbankan, asuransi, manajemen aset, dan fintech
GateNews2jam yang lalu