خمسة نماذج رائدة للذكاء الاصطناعي في Frontier تتعارض على 67% من مزاعم التحقق من الحقائق، تكشف دراسة

وجدت دراسة نُشرت هذا الشهر من الباحث كوستا جوردانوف في Lenz Research أن خمسة نماذج ذكاء اصطناعي في الطليعة اختلفت على 67% من 1,000 ادعاء للتحقق من الوقائع من واقع الحياة، مع حدوث اتفاق بالإجماع على 328 ادعاء فقط. اختبرت الدراسة GPT-5.4 وClaude Opus 4.7 وGemini 3 Pro وGemini 3 Pro مع البحث وSonar Pro على ادعاءات قدّمها مستخدمون فعليون إلى منصة للتحقق من الوقائع. حققت النماذج درجة Krippendorff's alpha قدرها 0.639، متراجعة عن عتبة 0.8 التي يعتبرها الباحثون عمومًا موثوقة. حدثت الخلافات رغم قيام جميع النماذج بتقييم ادعاءات متطابقة باستخدام نظام تسمية من أربع فئات: صحيح، صحيح في الغالب، مضلل، أو كاذب. تسلط النتائج الضوء على مخاوف تتعلق بالموثوقية مع توجه الناس بشكل متزايد إلى أنظمة الذكاء الاصطناعي للتحقق من المعلومات.

منهجية الدراسة المستخدمة ادعاءات مقدمة من مستخدمين حقيقيين

قدمت الدراسة خمسة نماذج ذكاء اصطناعي لنفس 1,000 ادعاء للتحقق من الوقائع من واقع الحياة، قدمها مستخدمون فعلون. كان على النماذج اختيار واحدة من أربع تسميات: صحيح، صحيح في الغالب، مضلل، أو كاذب. استخدمت الدراسة ادعاءات قُدمت من أشخاص حقيقيين إلى منصة التحقق من الوقائع الخاصة بـ Lenz بدلًا من سحبها من مجموعات اختبار معيارية. ويشير البحث إلى: "معظم هذه الادعاءات من غير المرجح أن تظهر في أي مجموعة تدريب تتضمن تسمية ذهبية مرفقة—لا توجد إجابة مفتاحية معيارية للمطابقة معها، ولا ترتيب/لوحة تضمنات Benchmarks لتكون نقطة ارتكاز".

خمسة نماذج للذكاء الاصطناعي اختلفت في 672 من أصل 1,000 ادعاء

في 672 من أصل 1,000 ادعاء، انفصل نموذج واحد على الأقل عن الأغلبية. وفي 34% من الحالات، كان الخلاف حادًا: اعتبر نموذجٌ ما الادعاء صحيحًا بينما اعتبره آخر كاذبًا. وجاء في نص الدراسة: "ليست هذه عناصر معيارية ذات مفاتيح إجابات علنية—إنها ادعاءات قدّمها مستخدمون حقيقيون لطلب التحقق إلى منصة للتحقق من الوقائع". وأضافت: "لا يمكن أن تكون سوى فئة حكم واحدة صحيحة لكل ادعاء، لذا فإن أي خلاف بين أعضاء اللجنة يعني أن حكم نموذج واحد على الأقل غير متسق مع الملصقات وفق قواعد هذا التقسيم من 4 فئات".

درجة الاعتمادية الإحصائية تنخفض تحت العتبة القياسية

جاء مقياس الاتفاق الإحصائي، المعروف باسم Krippendorff's alpha، عند 0.639 على مقياس حيث تعني 1.0 اتفاقًا مثاليًا و0 تعني فرصة عشوائية. تقول الدراسة إن ذلك يشير إلى "اتفاق غير تافه لكنه محدود". ويلاحظ الباحثون: "أحكام النماذج مُهيكلة وليست عشوائية، لكنها ليست متسقة بدرجة كافية لمعالجة اللجنة كقاضٍ واحد قابل للاستبدال". ويعتبر الباحثون عمومًا أن أي قيمة أقل من 0.8 تمثل ضعفًا.

أظهرت النماذج تباعدًا حادًا في ادعاءات أمثلة

قدّم الباحثون ادعاءات أمثلة حيث أظهرت نماذج الذكاء الاصطناعي أكبر قدر من التباعد، بما في ذلك: "تبلغ الحافظة النشطة للبنك الدولي في نيجيريا أكثر من 16.4 مليار دولار اعتبارًا من 2025". قال ChatGPT 5.4 إنها "صحيحة في الغالب"، بينما وصفها Gemini 3 Pro بأنها "كاذبة"، وصنّف نموذجها الشقيق Gemini 3 Pro + Search بأنها "مضللة".

وفي مثال آخر، قُدّم للنماذج الادعاء: "قال دونالد ترامب إن الهجوم على إيران تم تأجيله بناءً على طلب حلفاء من دول الخليج". قال GPT-5.4 إنه كاذب، بينما اعتبره Claude Opus 4.7 صحيحًا في الغالب، وقال Gemini 3 Pro إنه كاذب، وصنّف Gemini 3 Pro + Search الادعاء بأنه صحيح.

حدث الاتفاق بالإجماع فقط عند الأطراف الواقعية

عندما اتفقت جميع النماذج الخمسة—وهو ما حدث في 328 فقط من أصل 1,000 ادعاء—فإنها نادرًا ما اتفقت على أن شيئًا ما كان مضللًا أو صحيحًا في الغالب. حصلت أربعة ادعاءات فقط على حكم "مضلل" بالإجماع. ولم يحصل أي ادعاء على حكم "صحيح في الغالب" بالإجماع. ووجد الباحثون أن "اللجنة تتقارب على أحكام حاسمة؛ موضع منتصف سلم التقييم هو المكان الذي ينكسر فيه الاتفاق". ولم يحدث الإجماع إلا عند الأطراف: إما أن يكون الادعاء صحيحًا بشكل جازم أو كاذبًا بشكل جازم.

وتحرص الورقة على توضيح ذلك: "أغلبية النماذج المتقدمة ليست حقيقة قاطعة. قد تكون أغلبية الأحكام خاطئة أحيانًا؛ وقد يكون نموذج فردي معارضًا أحيانًا على صواب. نستخدم الأغلبية كنقطة مرجعية بنيوية لقياس حجم الخلاف، لا كبديل للصحة".

الأسئلة الشائعة

ماذا وجدت دراسة Lenz Research حول اتفاق نماذج الذكاء الاصطناعي في التحقق من الوقائع؟
وجدت الدراسة أن خمسة نماذج ذكاء اصطناعي في الطليعة اختلفت على 67% من 1,000 ادعاء للتحقق من الوقائع من واقع الحياة قدمها مستخدمون فعليون. حدث اتفاق بالإجماع على 328 ادعاء فقط، وحققت النماذج درجة Krippendorff's alpha قدرها 0.639، وهي أقل من عتبة الاعتمادية 0.8 التي يعتبرها الباحثون عموماً مقبولة.

كيف كانت نتائج نماذج الذكاء الاصطناعي على الادعاء المثال المتعلق بحافظة البنك الدولي في نيجيريا؟
قيّم ChatGPT 5.4 الادعاء "تبلغ الحافظة النشطة للبنك الدولي في نيجيريا أكثر من 16.4 مليار دولار اعتبارًا من 2025" على أنه "صحيح في الغالب"، بينما اعتبره Gemini 3 Pro كاذبًا، وصنّف Gemini 3 Pro + Search بأنه "مضلل"، ما يوضح تباعدًا حادًا بين النماذج على الادعاء الواقعي نفسه.

لماذا استخدمت الدراسة ادعاءات مقدمة من مستخدمين حقيقيين بدلًا من مجموعات اختبار معيارية؟
استخدم الباحثون ادعاءات قدمها أشخاص حقيقيون إلى منصة التحقق من الوقائع الخاصة بـ Lenz لأن معظم هذه الادعاءات من غير المرجح أن تظهر في أي مجموعة تدريب تتضمن تسمية ذهبية مرفقة، ما يلغي احتمال قيام النماذج بالمطابقة النمطية مع مفاتيح إجابات معيارية للـ Benchmarks، ويقدم اختبارًا أكثر واقعية لمدى اعتمادية التحقق من الوقائع.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات