Skor Debugging Claude Fable 5 Turun dari 86,2 menjadi 25,9 pada 1 Juli, Namun Arena.AI Menunjukkan Kinerja Datar

Menurut BridgeBench, skor debugging Claude Fable 5 turun drastis dari 86,2 menjadi 25,9 setelah pemulihannya pada 1 Juli, dengan refactoring turun dari 73,6 menjadi 38,4. Namun, penurunan ini mencerminkan pengklasifikasi keamanan baru Anthropic yang mengarahkan sebagian besar tugas coding ke Claude Opus 4.8, bukan degradasi model. Dari 12 tugas debugging, hanya tiga yang mencapai Fable 5; pengklasifikasi mencegat sembilan sesuai desain untuk mencegah eksploitasi jailbreak.

Pengujian preferensi manusia simultan Arena.AI di ribuan suara buta menemukan kinerja Fable 5 sebagian besar tidak berubah pasca-pemulihan, dengan skor dokumen naik 34 poin dan teks ahli naik 25 poin. Pengguna umum yang menangani penulisan kreatif, riset, dan analisis kemungkinan akan merasakan dampak minimal, sementara pengembang yang mengerjakan kode terkait keamanan menghadapi pengalihan fallback yang sering. Anthropic mengakui bahwa pengklasifikasi saat ini menjaring terlalu luas tetapi tidak memberikan jadwal untuk penyempurnaan.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar