وبحسب الباحث كوستا جوردانوف في Lenz Research، اختلفت خمسة نماذج ذكاء اصطناعي “رائدة” على 67% من 1,000 ادعاء للتحقق من الحقائق في العالم الحقيقي تم اختبارها هذا الشهر. طُلب من النماذج—GPT-5.4 وClaude Opus 4.7 وGemini 3 Pro وGemini 3 Pro مع Search وSonar Pro—تصنيف الادعاءات على أنها صحيحة، أو على الأغلب صحيحة، أو مضللة، أو خاطئة. وفي 34% من الحالات، كان الخلاف شديداً، حيث اعتبر أحد النماذج الادعاء صحيحاً بينما صنّفه نموذج آخر بأنه خاطئ.

قاسَت الدراسة درجة الاتفاق باستخدام ألفا كريبندورف (Krippendorff's alpha)، والتي سجلت 0.639 على مقياس تشير فيه الدرجة 1.0 إلى اتفاق مثالي؛ ويعتبر الباحثون عادة أن الدرجات الأقل من 0.8 ضعفاً. ولم يحدث اتفاق تام إلا في 328 من أصل 1,000 ادعاء، وبشكل لافت، لم تحصل أي ادعاءات على حكم تام “على الأغلب صحيحة”. استخدم الباحثون ادعاءات مقدمة من مستخدمين حقيقيين إلى منصة Lenz للتحقق من الحقائق، وليس معايير الاختبار القياسية، ما يقلل احتمال أن تقوم النماذج بنمطتها مقابل بيانات التدريب.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

05-29 10:15

يُوسّع «OpenAI» إتاحة GPT-Rosalind للحكومة الأميركية وحلفائها في 29 مايو

05-29 09:18

تطلق Google Gemini ست تدابير لتحسين الأداء، بما في ذلك إصدار مجاني من Flash-Lite وتضاعف حدود الفيديو

05-29 06:33

انخفاض حصة ChatGPT إلى 60% مع صعود Gemini إلى 50% خلال الأشهر الستة الماضية

05-29 06:25

تقرير مايكروسوفت: تمثل حسابات اتخاذ القرار المدعومة بالذكاء الاصطناعي 28% من نشاط مكان العمل اعتبارًا من 29 مايو

05-29 04:17

أبل تعيد هيكلة Siri باستخدام نموذج Gemini الذي يمتلك تريليون معلمة، وتستخدم الحوسبة السرّية من Nvidia

تحليل متعمق