Claude Fable 5 kembali beroperasi pada 1 Juli, memicu penilaian kinerja yang bertentangan dari dua platform benchmarking AI. BridgeBench melaporkan penurunan skor debugging dari 86,2 menjadi 25,9, sementara Arena.AI menemukan kinerja sebagian besar tidak berubah melalui ribuan suara preferensi manusia buta. Perbedaan ini berasal dari pengklasifikasi keamanan baru Anthropic yang mengarahkan sebagian besar tugas pengkodean ke Claude Opus 4.8, bukan penurunan kemampuan model yang sebenarnya, menurut analisis yang diterbitkan pada 2 Juli. Pengklasifikasi tersebut diterapkan sebagai syarat pemulihan setelah peneliti Amazon mendemonstrasikan teknik jailbreak pada bulan Juni, yang mendorong intervensi pemerintah AS atas dasar keamanan nasional.
BridgeMind menjalankan ulang seluruh rangkaian pengkodeannya terhadap versi 1 Juli dari Fable 5 pada hari kembalinya. BridgeBench menguji tugas pengkodean dunia nyata di berbagai kategori termasuk debugging, refactoring, dan ketahanan halusinasi, dengan skor 0–100 berdasarkan seberapa baik model menyelesaikan setiap kategori. Debugging turun dari 86,2 menjadi 25,9, Refactoring dari 73,6 menjadi 38,4, dan Ketahanan halusinasi dari 75,9 menjadi 61,7.
Dari 12 tugas debugging TypeScript, hanya tiga yang benar-benar mencapai Fable 5. Sembilan sisanya dicegat oleh pengklasifikasi keamanan baru Anthropic dan dialihkan ke Claude Opus 4.8. BridgeBench memberikan skor nol untuk setiap pengalihan, karena model yang menjawab bukanlah model yang dievaluasi. Pengklasifikasi dilatih untuk memblokir teknik jailbreak yang dilaporkan Amazon—teknik yang membuat Fable 5 mengidentifikasi dan mendemonstrasikan kerentanan perangkat lunak. Debugging TypeScript terlihat cukup mirip dengan pekerjaan keamanan bagi pengklasifikasi sehingga pengalihan terjadi terus-menerus.
Arena.AI menjalankan pertanyaan yang sama melalui sudut pandang yang berbeda. Platform ini mengumpulkan ribuan suara preferensi manusia buta di berbagai kategori—teks, visi, dokumen, kode, dan agen—dan memberi peringkat model menggunakan skor Elo. Ketika dua model bertemu secara anonim dan manusia memilih pemenang, skor tersebut mencerminkan kualitas yang dirasakan sebenarnya, bukan routing infrastruktur.
Perbandingan sebelum dan sesudah menunjukkan Fable 5 sebagian besar bertahan. Kode frontend turun dari 1650 menjadi 1623 Elo—perbedaan yang dicatat Arena masih dalam interval kepercayaan seiring dengan akumulasi data. Kinerja dokumen meningkat 34 poin. Teks ahli naik 25. Penulisan kreatif naik sedikit 9. Kategori yang menurun—Pengkodean di -18, prompt sulit di -3—tepatnya di mana pengklasifikasi paling mungkin mencegat prompt sebelum Fable dapat menjawab.
Pengguna umum yang melakukan penulisan kreatif, analisis dokumen, penelitian, dan kueri teks tingkat ahli kemungkinan besar akan merasakan sedikit atau tidak ada perbedaan. Itu adalah kategori di mana Arena.AI menunjukkan kinerja datar atau meningkat. Penulis, peneliti, dan analis akan mendapatkan Fable 5 yang mereka harapkan.
Siapa pun yang bekerja di area yang berdekatan dengan keamanan—pengelolaan memori kode, apa pun yang menyentuh kata-kata seperti kerentanan, eksploitasi, hook, atau bahkan perbaikan—akan sering mengalami pengalihan. Kesenjangan antara keruntuhan BridgeBench dan stabilitas Arena terletak pada jenis tugas. BridgeBench memuat rangkaiannya dengan tepat jenis prompt perbaikan kode dan debugging yang memicu pengklasifikasi baru. Voter manusia Arena menanyakan campuran hal yang jauh lebih luas, dan sebagian besar tidak terlihat seperti kode eksploitasi bagi lapisan keamanan.
Anthropic telah mengatakan bahwa pengklasifikasi akan meningkat seiring waktu, mengakui bahwa saat ini mereka menjaring terlalu luas. Larangan awal terjadi setelah peneliti Amazon menemukan teknik untuk membuat Fable mengidentifikasi dan mendemonstrasikan kerentanan perangkat lunak—dan pemerintah AS memperlakukan itu sebagai ancaman keamanan nasional. Perbaikannya adalah membuat pengklasifikasi cukup konservatif untuk menangkap itu dan segala sesuatu di sekitarnya, lalu menyesuaikannya nanti. Anthropic tidak memberikan tanggal target kapan hal itu akan terjadi.
Mengapa skor debugging Claude Fable 5 turun dari 86,2 menjadi 25,9 di BridgeBench?
Pengklasifikasi keamanan mengarahkan sembilan dari dua belas tugas debugging TypeScript ke Claude Opus 4.8, bukan Fable 5. BridgeBench memberikan skor nol untuk setiap pengalihan karena model yang dievaluasi tidak menangani tugas tersebut, menyebabkan penurunan skor parah meskipun tidak ada perubahan pada kemampuan sebenarnya dari Fable 5.
Apa yang ditemukan Arena.AI tentang kinerja Fable 5 setelah pemulihan 1 Juli?
Arena.AI mengumpulkan ribuan suara preferensi manusia buta dan menemukan kinerja Fable 5 sebagian besar datar dibandingkan dengan versi Juni. Kinerja dokumen meningkat 34 poin dan teks ahli 25 poin, sementara kode frontend turun dari 1650 menjadi 1623 Elo—perbedaan yang masih dalam interval kepercayaan seiring dengan akumulasi data.
Berita Terkait
Microsoft Meluncurkan Perusahaan Frontier dengan Investasi AI senilai 2,5 miliar dolar AS
快手「可靈 AI」即將完成 30 億美元融資,騰訊與阿里列潛在投資人名單
Saham Meta memasuki komputasi awan, memicu kejatuhan berantai saham perangkat keras AI.
AS Mencabut Pembatasan Ekspor pada Model AI Fable 5 dan Mythos 5 milik Anthropic