Menurut BridgeBench AI dan Arena.AI, pemulihan Claude Fable 5 pada 1 Juli memicu hasil benchmark yang bertentangan. BridgeBench melaporkan skor debugging turun dari 86,2 menjadi 25,9, tetapi data menunjukkan sembilan dari dua belas tugas dialihkan ke Opus 4.8 oleh pengklasifikasi keamanan baru Anthropic, bukan mencapai Fable 5 itu sendiri. Sementara itu, ribuan suara preferensi manusia dari Arena.AI menemukan kinerja Fable 5 sebagian besar datar atau meningkat di sebagian besar kategori ketika model benar-benar menangani permintaan, dengan kinerja dokumen naik 34 poin Elo dan teks ahli naik 25.
Perbedaan ini penting: pengguna umum dalam penulisan kreatif, penelitian, dan analisis teks akan melihat perbedaan minimal, sementara pengembang yang bekerja pada perbaikan kode dan debugging menghadapi perutean fallback yang konstan. Anthropic mengakui bahwa pengklasifikasi baru terlalu luas dalam memblokir prompt terkait eksploit dan mengatakan penyempurnaan akan datang seiring waktu, tetapi tidak memberikan jadwal waktu.