Tim Kaiming He Merilis Model Diffusi Bahasa ELF dengan 45 miliar Token Pelatihan

Menurut Beating, tim Kaiming He dari MIT baru-baru ini merilis ELF (Embedded Language Flows), sebuah model difusi bahasa yang menyimpang dari pendekatan autoregresif “memprediksi token berikutnya” yang digunakan oleh model bergaya GPT. Sebagai gantinya, ELF melakukan generasi teks dalam ruang embedding kontinu, mengubahnya menjadi token diskrit hanya pada langkah terakhir.

Pada tolok ukur generasi tanpa kondisi OpenWebText, ELF-B dengan 105M parameter mencapai sekitar 24,1 perplexity generasi (Gen. PPL) dengan sampling 32 langkah, mengungguli berbagai baseline model bahasa difusi diskrit maupun kontinu. Yang menonjol, ELF-B hanya memerlukan kira-kira 45 miliar token pelatihan, sekitar satu orde besarnya lebih sedikit dibanding metode sebanding yang biasanya melampaui 500 miliar token.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Andrew Ng: “AI tidak akan memicu gelombang PHK besar-besaran”, perekrutan software engineer tetap kuat

領域知名學者、DeepLearning.AI 創辦人 Andrew Ng(吳恩達)5 月 12 日於 X 與 The Batch 電子報發文主張「AI 不會引發失業 besar(jobpocalypse)」,langsung membantah narasi kepanikan pengangguran massal akibat AI. Berdasarkan unggahan asli Andrew Ng, postingan ini mendapat lebih dari 2.600 kali suka dan merupakan salah satu opini paling ramai dibahas di bidang AI pada pekan tersebut. Argumen inti Ng: perekrutan untuk rekayasa perangkat lunak masih kuat, tingkat pengangguran bertahan di 4,3% Ng membantah narasi “AI akan menyebabkan pengan

ChainNewsAbmedia1jam yang lalu

Chip Kunlun Tian Chi supernode 256-card milik Baidu akan diluncurkan pada bulan Juni dengan peningkatan throughput sebesar 25%

Menurut Baidu, pada 13 Mei selama konferensi pengembang Create 2026, perusahaan mengumumkan bahwa Kunlun Chip Tian Chi supernode 256 kartu-nya akan resmi diluncurkan pada Juni, dengan kinerja throughput meningkat 25% dibanding generasi sebelumnya serta efisiensi inferensi yang ditingkatkan 50%. Supernode ini telah menyelesaikan adaptasi untuk model-model arus utama termasuk Wenxin, DeepSeek, GLM, dan MiniMax, dengan latensi end-to-end yang dioptimalkan 50% melalui arsitektur jaringan HPN 5.0 yan

GateNews1jam yang lalu

Cerebras Harga IPO Melewati Rentang $150-160, Menggalang $4,8 miliar Berkat Permintaan Besar

Menurut Bloomberg, Cerebras Systems bersiap menetapkan harga IPO-nya di atas kisaran US$150-160 pada 13 Mei 2026, dengan permintaan untuk penjualan saham melonjak lebih dari 20 kali lipat dibandingkan jumlah saham yang tersedia. Produsen chip AI itu menawarkan 30 juta saham dan akan menghimpun US$4,8 miliar pada batas atas kisaran, menjadikannya IPO AS terbesar tahun ini di luar penempatan privat. Perusahaan melaporkan laba bersih sebesar US$87,9 juta dari US$510 juta pendapatan pada 2025, diban

GateNews1jam yang lalu

Meta Menawarkan Saingan Chatbot AI Gratis Selama Satu Bulan Akses WhatsApp untuk Menghindari Denda Antitrust UE

Menurut Reuters, Meta menawarkan chatbot AI pesaing di European Economic Area (EEA) akses WhatsApp Business API gratis selama satu bulan sebagai bagian dari upaya untuk menyelesaikan penyelidikan antitrust UE yang bisa berujung pada denda hingga 10% dari omset global tahunan. Komisi Eropa, yang pada April menandakan bahwa pihaknya dapat memaksa akses setelah Meta membatasi WhatsApp ke AI miliknya sendiri pada Januari dan kemudian membukanya untuk kompetitor dengan biaya pada Maret, menyebut pena

GateNews1jam yang lalu

Xero Meluncurkan Integrasi Claude pada 13 Mei

Menurut Xero, perusahaan meluncurkan integrasi langsung dengan Claude dari Anthropic pada 13 Mei yang memungkinkan pelanggan di seluruh dunia menggunakan data Xero di dalam Claude.ai. Fitur ini menampilkan angka langsung seperti posisi kas, faktur yang terlambat, pendapatan, dan piutang sambil menautkan respons kembali ke catatan Xero. Xero mengatakan data yang dibagikan dalam integrasi hanya digunakan untuk setiap sesi dan tidak digunakan untuk melatih model Claude.

GateNews1jam yang lalu

METiS TechBio Mengumpulkan 269,5 juta dolar AS dalam IPO Hong Kong pada 13 Mei, Saham Melompat Saat Debut

Menurut South China Morning Post, startup perancangan obat dengan bantuan AI METiS TechBio menghimpun HK$2,11 miliar (US$269,5 juta) dalam penawaran umum perdana (IPO) di Hong Kong pada 13 Mei, dengan saham melonjak saat debut di tengah permintaan kuat terhadap saham-saham terkait AI. Perusahaan menjual 201,23 juta saham pada harga HK$10,50 (US$1,3) per saham. Delapan belas investor pilar, termasuk BlackRock, UBS Asset Management Singapore, dan Mirae Asset Securities, berlangganan gabungan sebes

GateNews1jam yang lalu
Komentar
0/400
Tidak ada komentar