Lima Model Frontier AI Berbeda Pendapat tentang 67% Klaim Pemeriksaan Fakta, Temuan Studi

2026-05-29 17:33:32

Sebuah studi yang diterbitkan bulan ini oleh peneliti Kosta Jordanov di Lenz Research menemukan bahwa lima model AI frontier berbeda pendapat pada 67% dari 1.000 klaim faktual untuk penelusuran fakta di dunia nyata, dengan kesepakatan bulat hanya terjadi pada 328 klaim. Penelitian ini menguji GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro dengan Search, dan Sonar Pro pada klaim yang diajukan oleh pengguna sesungguhnya ke platform pemeriksa fakta. Model-model tersebut memperoleh skor Krippendorff's alpha sebesar 0,639, turun di bawah ambang 0,8 yang umumnya dianggap andal oleh para peneliti. Perbedaan pendapat terjadi meskipun semua model mengevaluasi klaim identik menggunakan sistem empat label yang sama: true, mostly true, misleading, atau false. Temuan ini menyoroti kekhawatiran terkait keandalan saat orang semakin beralih ke sistem AI untuk pemeriksaan fakta.

Metodologi Studi yang Digunakan Klaim yang Diajukan Pengguna Nyata

Penelitian ini memberi lima model AI klaim faktual pemeriksaan fakta dunia nyata yang sama sebanyak 1.000, yang diajukan oleh pengguna sesungguhnya. Model-model tersebut harus memilih satu dari empat label: true, mostly true, misleading, atau false. Studi ini menggunakan klaim yang diajukan oleh orang sungguhan ke platform pemeriksa fakta Lenz, alih-alih mengambil dari set uji standar. "Kebanyakan klaim ini kecil kemungkinan muncul di data pelatihan mana pun dengan label emas yang melekat—tidak ada kunci jawaban kanonik untuk mencocokkan pola, tidak ada leaderboard benchmark untuk menjadi jangkar," catatan paper tersebut.

Lima Model AI Berbeda Pendapat pada 672 dari 1.000 Klaim

Pada 672 dari 1.000 klaim, setidaknya satu model menyimpang dari mayoritas. Pada 34% kasus, perbedaannya parah: satu model menyebut klaim itu true sementara model lain menyebutnya false. "Ini bukan item benchmark dengan kunci jawaban publik—ini adalah klaim yang diajukan pengguna nyata untuk diverifikasi ke platform pemeriksa fakta," bunyi studi tersebut. "Hanya satu bucket vonis yang bisa benar untuk setiap klaim, jadi setiap perbedaan di antara panel berarti setidaknya satu model memiliki vonis yang tidak konsisten label di bawah rubrik 4 bucket ini."

Skor Keandalan Statistik Turun di Bawah Ambang Standar

Ukuran statistik kesepakatan, yang disebut Krippendorff's alpha, berada di 0,639 pada skala di mana 1,0 berarti kesepakatan sempurna dan 0 berarti peluang acak. Studi tersebut mengatakan ini menunjukkan "kesepakatan yang tidak sepele namun terbatas." "Vonis model-model tersusun, bukan acak, tetapi tidak cukup konsisten untuk memperlakukan panel sebagai satu hakim tunggal yang bisa dipertukarkan," kata para peneliti. Para peneliti umumnya menganggap apa pun di bawah 0,8 sebagai lemah.

Model Menunjukkan Divergensi Parah pada Contoh Klaim

Para peneliti memberikan contoh klaim di mana model-model AI menunjukkan divergensi paling besar, termasuk "Portofolio aktif Bank Dunia di Nigeria berdiri dengan nilai lebih dari $16,4 miliar pada 2025." ChatGPT 5.4 mengatakan itu "mostly true" sementara Gemini 3 Pro menyebutnya "false" dan model saudaranya Gemini 3 Pro + Search menilainya "misleading."

Pada contoh lain, model-model diberi klaim: "Donald Trump mengatakan bahwa serangan terhadap Iran ditunda atas permintaan sekutu Teluk." GPT-5.4 mengatakan itu false, Claude Opus 4.7 menyebutnya mostly true, Gemini 3 Pro mengatakan false, dan Gemini 3 Pro + Search menilainya true.

Kesepakatan Bulat Hanya Terjadi pada Ekstrem Factual

Ketika kelima model sepakat—yang hanya terjadi pada 328 dari 1.000 klaim—mereka hampir tidak pernah sepakat bahwa sesuatu itu misleading atau mostly true. Hanya empat klaim yang menerima vonis bulat "misleading." Tidak ada yang menerima vonis bulat "mostly true." "Panel berkonvergensi pada vonis yang definitif; bagian tengah dari rubrik di mana ia pecah," temuan para peneliti. Keseragaman hanya terjadi pada ekstrem: baik klaim itu benar secara pasti atau salah secara pasti.

Paper ini berhati-hati untuk menegaskan: "Mayoritas model frontier bukanlah kebenaran mutlak. Vonis mayoritas kadang-kadang salah; model pembangkang individu kadang-kadang benar. Kami menggunakan mayoritas sebagai referensi struktural untuk mengukur perbedaan, bukan sebagai pengganti ketepatan."

FAQ

Apa yang ditemukan studi Lenz Research tentang kesepakatan model AI untuk pemeriksaan fakta?
Studi tersebut menemukan bahwa lima model AI frontier berbeda pendapat pada 67% dari 1.000 klaim faktual pemeriksaan fakta dunia nyata yang diajukan oleh pengguna sesungguhnya. Kesepakatan bulat terjadi hanya pada 328 klaim, dan model-model tersebut mencapai skor Krippendorff's alpha sebesar 0,639, di bawah ambang keandalan 0,8 yang umumnya dianggap dapat diterima oleh para peneliti.

Bagaimana kinerja model AI pada klaim contoh tentang portofolio Bank Dunia di Nigeria?
ChatGPT 5.4 menilai klaim "Portofolio aktif Bank Dunia di Nigeria bernilai lebih dari $16,4 miliar pada 2025" sebagai mostly true, sementara Gemini 3 Pro menyebutnya false dan Gemini 3 Pro + Search menilainya misleading, yang menunjukkan divergensi parah di antara model-model pada klaim faktual yang sama.

Mengapa studi menggunakan klaim yang diajukan pengguna sesungguhnya, bukan set uji standar?
Para peneliti menggunakan klaim yang diajukan oleh orang sungguhan ke platform pemeriksa fakta Lenz karena sebagian besar klaim ini kecil kemungkinan muncul di data pelatihan mana pun dengan label emas yang melekat, sehingga menghilangkan kemungkinan model melakukan pencocokan pola terhadap kunci jawaban benchmark dan memberikan pengujian yang lebih realistis terhadap keandalan pemeriksaan fakta.

Lihat Sumber

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

05-29 17:32

Lima Model AI Frontier Berbeda Pendapat pada 67% Klaim Pemeriksaan Fakta dalam Studi Terbaru

05-29 06:33

Pangsa pasar ChatGPT Turun ke 60% saat Gemini Melonjak ke 50% dalam Enam Bulan Terakhir

05-29 04:17

Apple Restrukturisasi Siri dengan Model Gemini Berparameter Triliun dan Nvidia Confidential Computing