نماذج Claude تتصدر معيار مقاومة الدعاية الإستونية باستخدام نماذج LLMs

أطلقت معهد اللغة الإستونية (ELI) معيارًا جديدًا بعنوان "مقاومة الدعاية" يَصنّف عشرات نماذج اللغات الكبيرة وفق قدرتها على تجنّب اتخاذ مواقف تجاه موضوعات تستخدمها روسيا في رواياتها السردية الاستراتيجية. طُوِّر المعيار لمعالجة مخاوف حكومية من أن نماذج اللغات الكبيرة قد تُروِّج لما تعتبره دعايةً خطِرة صادرة عن خصوم أجانب. وبوصف إستونيا دولةً مستقلة بعد أن كانت إحدى جمهوريات الاتحاد السوفيتي السابق لِفترة لا تتجاوز بضعة عقود، يظل كثير من الإستونيين شديدي اليقظة تجاه ما يرونه روايات زائفة يروّج لها جارهم الشرقي الكبير، وغالبًا ما يتسم بعدوانية.

ELI تطوّر إطار اختبار من 14 فئة مع Propastop

تعاون معهد اللغة الإستونية مع تجمع دفاع إستوني يديره متطوعون هو Propastop لتحديد 14 فئة واسعة ترى فيها عمليات التأثير الروسية تحاول التأثير على النقاش العام. تتراوح هذه الفئات بين روايات تتعلق بالحالة الراهنة لشبه جزيرة القرم ومبررات الحرب في أوكرانيا، وصولًا إلى تاريخ حلف شمال الأطلسي (NATO) ومبررات روسيا لضمّ دول البلطيق خلال الحرب العالمية الثانية.

وبالنسبة لكل فئة دعاية، صمّم الباحثون أسئلة منفصلة تُصاغ إما بطريقة محايدة، أو تكون منحازة عبر "افتراضات خاطئة" استنادًا إلى دعاية روسية، أو تُقدَّم عمداً لمحاولة انتزاع معلومات مضللة صريحة من نموذج اللغة. وجرى تقديم الأسئلة إلى النماذج بالإنجليزية والإستونية والروسية. كما قيّم نموذج ذكاء اصطناعي منفصل، مُعايَر لمحاذاة خبراء Propastop، الردود استنادًا إلى قدرة النماذج على "دفع روايات الدعاية للخلف، دون مساعدة خارجية" من بحث الويب أو غيره من الأدوات الخارجية.

Claude Opus 4.7 يحقق درجة 94.9 في نتائج المعيار

قدّمت نماذج Claude التابعة لشركة Anthropic أفضل أداء بين نماذج الحدود الاحتكارية ضمن المعيار الجديد، حيث حازت إصدارات حديثة مختلفة من نماذج Sonnet وOpus على ست من المراكز العشرة الأولى. حصل Opus 4.7، وهو أفضل نموذج أداءً على الإطلاق، على علامة "جدير بالمثال" من الدرجة الأعلى عن الاستجابة في 77 بالمئة من الأسئلة، وعلى تقييم "متوسط/رديء" في 2 بالمئة فقط من الأسئلة. وبلغت الدرجة النهائية المتوسطة للنموذج 94.9 من 100 على المعيار.

الأسئلة الشائعة

ما هو معيار "مقاومة الدعاية" الصادر عن معهد اللغة الإستونية؟

معيار "مقاومة الدعاية" هو إطار اختبار أطلقه معهد اللغة الإستونية يَصنّف نماذج اللغات الكبيرة وفق قدرتها على تجنّب اتخاذ مواقف تجاه موضوعات تُستخدم في الروايات السردية الاستراتيجية للاتحاد الروسي. ويختبر المعيار النماذج عبر 14 فئة دعاية باستخدام أسئلة بالإنجليزية والإستونية والروسية.

كيف كان أداء Claude Opus 4.7 في اختبار مقاومة الدعاية؟

حقق Claude Opus 4.7 أعلى درجة بواقع 94.9 من 100 على المعيار. حصل النموذج على تقييم "جدير بالمثال" في 77 بالمئة من الأسئلة، وعلى تقييم "متوسط/رديء" في 2 بالمئة فقط من الأسئلة. وتصدرت نماذج Claude التابعة لشركة Anthropic ستة من المراكز العشرة الأولى إجمالًا.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات