خمسة نماذج من طراز Frontier للذكاء الاصطناعي اختلفت على 67% من ادعاءات التحقق من الحقائق في أحدث دراسة

وبحسب الباحث كوستا جوردانوف في Lenz Research، اختلفت خمسة نماذج ذكاء اصطناعي “رائدة” على 67% من 1,000 ادعاء للتحقق من الحقائق في العالم الحقيقي تم اختبارها هذا الشهر. طُلب من النماذج—GPT-5.4 وClaude Opus 4.7 وGemini 3 Pro وGemini 3 Pro مع Search وSonar Pro—تصنيف الادعاءات على أنها صحيحة، أو على الأغلب صحيحة، أو مضللة، أو خاطئة. وفي 34% من الحالات، كان الخلاف شديداً، حيث اعتبر أحد النماذج الادعاء صحيحاً بينما صنّفه نموذج آخر بأنه خاطئ.

قاسَت الدراسة درجة الاتفاق باستخدام ألفا كريبندورف (Krippendorff's alpha)، والتي سجلت 0.639 على مقياس تشير فيه الدرجة 1.0 إلى اتفاق مثالي؛ ويعتبر الباحثون عادة أن الدرجات الأقل من 0.8 ضعفاً. ولم يحدث اتفاق تام إلا في 328 من أصل 1,000 ادعاء، وبشكل لافت، لم تحصل أي ادعاءات على حكم تام “على الأغلب صحيحة”. استخدم الباحثون ادعاءات مقدمة من مستخدمين حقيقيين إلى منصة Lenz للتحقق من الحقائق، وليس معايير الاختبار القياسية، ما يقلل احتمال أن تقوم النماذج بنمطتها مقابل بيانات التدريب.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
GateUser-84f1f85dvip
· منذ 14 د
1000x أجواء 🤑
شاهد النسخة الأصليةرد0
GateUser-84f1f85dvip
· منذ 14 د
تمسك جيدًا 💪
شاهد النسخة الأصليةرد0
GateUser-84f1f85dvip
· منذ 14 د
معركة الثور 🐂
شاهد النسخة الأصليةرد0
GateUser-84f1f85dvip
· منذ 14 د
قرد في 🚀
شاهد النسخة الأصليةرد0