Data Pelatihan DeepSeek V4 Berlipat Ganda Jadi 33T, Memicu Ketidakstabilan yang Menunda Rilis

Berita Gate, 24 April — Laporan teknis DeepSeek V4 mengungkap bahwa V4-Flash dan V4-Pro masing-masing telah dipra-latih pada 32T dan 33T token, dua kali lipat dari sekitar 15T token yang digunakan untuk V3. Laporan tersebut mengakui menemui “tantangan ketidakstabilan yang signifikan” selama pelatihan, dengan lonjakan loss yang berulang kali terjadi akibat anomali pada lapisan Mixture-of-Experts (MoE); mekanisme routing itu sendiri memperparah anomali ini, dan rollback sederhana tidak dapat menyelesaikan masalah tersebut.

DeepSeek menerapkan dua solusi yang kini digunakan pada pelatihan aktual: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan tulang punggung dan secara otomatis hanya memicu saat lonjakan loss terdeteksi (menambahkan overhead sekitar 20%), serta SwiGLU Clamping, yang secara langsung menekan anomali dengan mengapit nilai aktivasi pada rentang tetap. Laporan tersebut menyatakan kedua pendekatan efektif, tetapi mengakui “prinsip-prinsip yang mendasarinya masih belum dipahami secara memadai.”

Susan Zhang, peneliti Google DeepMind yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan “menjelaskan keterlambatannya.” Ia menggambarkan dua solusi tersebut sebagai “perban sementara” sambil mengakui transparansi teknis DeepSeek.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

IREN Mengakuisisi Mirantis untuk $625M dalam Kesepakatan Saham Seluruhnya untuk Memperluas Platform Cloud AI

Menurut BlockBeats, IREN Limited menyetujui untuk mengakuisisi perusahaan perangkat lunak infrastruktur cloud Mirantis dengan nilai sekitar $625 juta dalam transaksi seluruhnya berbasis saham pada 5 Mei. Akuisisi ini bertujuan untuk meningkatkan kapabilitas cloud AI IREN dengan menghadirkan kemampuan perangkat lunak dan orkestrasi untuk

GateNews2jam yang lalu

CEO Anthropic: AS Mempertimbangkan Proses Rilis Model AI yang Disederhanakan, Pesaing Tertinggal 1-3 Bulan

Menurut 金十, CEO Anthropic mengungkapkan pada 5 Mei bahwa pemerintah AS tampaknya sedang mempertimbangkan penyederhanaan proses untuk merilis model kecerdasan buatan. CEO tersebut mencatat bahwa kemampuan lab-lab AI besar lainnya mungkin tertinggal dari Anthropic sekitar satu hingga tiga

GateNews2jam yang lalu

Tim SGLang Menyelesaikan Putaran Pendanaan Benih $100M Senilai $400M , Accel Memimpin

Menurut Beating, tim di balik mesin inferensi open-source SGLang telah secara resmi membentuk RadixArk dan menyelesaikan putaran pendanaan seed senilai 100 juta dolar AS dengan valuasi post-money 400 juta dolar AS. Accel memimpin putaran tersebut, dengan Spark Capital sebagai investor co-lead. Pesaing semikonduktor Nvidia (melalui

GateNews2jam yang lalu

OpenAI Memberi Hibah kepada 8.000 Pengembang untuk Meningkatkan Batas Kecepatan Codex hingga 10x sampai 5 Juni

Menurut Beating, OpenAI mengirim email kepada lebih dari 8.000 pengembang yang mendaftar untuk acara offline GPT-5.5 di San Francisco, memberi mereka peningkatan 10x pada batas laju Codex yang berlaku segera hingga 5 Juni. Semua pelamar menerima hadiah apa pun terlepas dari apakah mereka mendapat undangan acara.

GateNews2jam yang lalu

Patungan OpenAI dengan Anthropic dalam pembicaraan untuk mengakuisisi tiga perusahaan layanan AI pada 5 Mei

Menurut Jin 10, usaha patungan OpenAI dengan Anthropic sedang dalam pembicaraan untuk mengakuisisi tiga perusahaan layanan AI pada 5 Mei. Perusahaan yang ditargetkan dilaporkan mencakup perusahaan yang berfokus pada rekayasa dalam layanan AI

GateNews2jam yang lalu

Anthropic Meluncurkan Sepuluh Agen AI untuk Layanan Keuangan pada Hari Selasa

Anthropic meluncurkan sepuluh agen AI baru pada Selasa yang dirancang untuk menangani tugas layanan keuangan, termasuk menyusun presentasi rapat klien, meninjau laporan keuangan, dan mengeskalasi kasus untuk ditinjau kepatuhan. Alat tersebut menargetkan para profesional di perbankan, asuransi, manajemen aset, dan fintech

GateNews2jam yang lalu
Komentar
0/400
Tidak ada komentar