Claude Fable 5 Penurunan Performa pada Benchmark, Namun Pengklasifikasi Keamanan—Bukan Model—Disalahkan atas Kegagalan Routing

Menurut BridgeBench AI dan Arena.AI, pemulihan Claude Fable 5 pada 1 Juli memicu hasil benchmark yang bertentangan. BridgeBench melaporkan skor debugging turun dari 86,2 menjadi 25,9, tetapi data menunjukkan sembilan dari dua belas tugas dialihkan ke Opus 4.8 oleh pengklasifikasi keamanan baru Anthropic, bukan mencapai Fable 5 itu sendiri. Sementara itu, ribuan suara preferensi manusia dari Arena.AI menemukan kinerja Fable 5 sebagian besar datar atau meningkat di sebagian besar kategori ketika model benar-benar menangani permintaan, dengan kinerja dokumen naik 34 poin Elo dan teks ahli naik 25.

Perbedaan ini penting: pengguna umum dalam penulisan kreatif, penelitian, dan analisis teks akan melihat perbedaan minimal, sementara pengembang yang bekerja pada perbaikan kode dan debugging menghadapi perutean fallback yang konstan. Anthropic mengakui bahwa pengklasifikasi baru terlalu luas dalam memblokir prompt terkait eksploit dan mengatakan penyempurnaan akan datang seiring waktu, tetapi tidak memberikan jadwal waktu.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar