Fable 5 Gagal di Semua Tugas Paling Sulit dalam Ujian ALE UC Berkeley, Biayanya 4-12x Lebih Mahal Dibanding Pesaing

Menurut UC Berkeley RDI, hasil evaluasi Agents' Last Exam (ALE) terbaru yang dirilis minggu ini menunjukkan tingkat keberhasilan 0% pada tugas tersulit yang memerlukan penalaran berkelanjutan dan keahlian mendalam di semua agen AI yang diuji, termasuk Fable 5 yang baru dirilis. Dalam biaya API per tugas, Fable 5 mengenakan biaya $15,70—4 kali lebih tinggi dibanding GPT-5.5 yang sebesar $3,80 dan 12 kali lebih tinggi dibanding Composer 2.5 yang sebesar $1,33. Evaluasi mencakup 55 domain profesional dengan lebih dari 1.500 tugas terverifikasi ahli dan menemukan bahwa agen paling sering gagal dengan cara menyatakan keberhasilan terlalu cepat tanpa memvalidasi hasil.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar