GPT-5 Mencapai Akurasi 62,7% pada Insiden Produksi, Melenceng dari Batas Bawah Pakar 72,7%

Berdasarkan benchmark terbaru Datadog dan Carnegie Mellon, GPT-5 mencapai akurasi 62,7% pada uji ARFBench, tertinggal dari pakar domain manusia yang mencapai 72,7%. ARFBench adalah benchmark AI pertama yang dibangun dari 63 insiden produksi nyata, berisi 750 soal pilihan ganda yang mencakup 142 metrik pemantauan dan 5,38 juta titik data—tanpa data sintetis.

Model AI paling kesulitan pada penalaran lintas-metrik (soal Tier III), di mana GPT-5 hanya meraih F1 47,5%. Oracle teoritis pakar-model yang menggabungkan AI dan penilaian manusia mencapai akurasi 87,2%, menunjukkan bagaimana kolaborasi dapat melampaui masing-masing secara terpisah. Model hibrida Datadog, Toto-1.0-QA-Experimental, memuncaki papan peringkat dengan akurasi 63,9%, mengungguli GPT-5 dalam identifikasi anomali.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar