Berdasarkan benchmark terbaru Datadog dan Carnegie Mellon, GPT-5 mencapai akurasi 62,7% pada uji ARFBench, tertinggal dari pakar domain manusia yang mencapai 72,7%. ARFBench adalah benchmark AI pertama yang dibangun dari 63 insiden produksi nyata, berisi 750 soal pilihan ganda yang mencakup 142 metrik pemantauan dan 5,38 juta titik data—tanpa data sintetis.
Model AI paling kesulitan pada penalaran lintas-metrik (soal Tier III), di mana GPT-5 hanya meraih F1 47,5%. Oracle teoritis pakar-model yang menggabungkan AI dan penilaian manusia mencapai akurasi 87,2%, menunjukkan bagaimana kolaborasi dapat melampaui masing-masing secara terpisah. Model hibrida Datadog, Toto-1.0-QA-Experimental, memuncaki papan peringkat dengan akurasi 63,9%, mengungguli GPT-5 dalam identifikasi anomali.
Berita Terkait
Gambar F.03 Berlangsung 81 jam berturut-turut tanpa proses penyortiran 101.391 paket
Malta memberikan akses gratis menggunakan ChatGPT Plus selama satu tahun untuk seluruh warganya: kerja sama tingkat negara pertama dari OpenAI
Anthropic membahas persaingan AI AS-Tiongkok: keunggulan Tiongkok berpotensi menjadi ancaman global, tiga saran untuk memperkuat parit pertahanan (moat) AS