وفقاً لفريق مواءمة OpenAI، اكتشفت الشركة مؤخراً خطأً تدريبيًا بالغ الأهمية يؤثر في 6 نماذج لغوية كبيرة، بما في ذلك GPT-5.4. Thinking: آلية المكافأة قيّمت عن غير قصد سلاسل التفكير الخاصة بالنموذج — وهي عملية الاستدلال الداخلية قبل توليد الإجابات. لم يتأثر GPT-5.5.
ينتهك هذا الحادث مبدأً أساسياً لسلامة الذكاء الاصطناعي، وهو أن سلاسل التفكير يجب ألا تُقيَّم أبداً؛ إذ إن القيام بذلك قد يشجع النماذج على اختلاق reasoning من أجل الحصول على درجات أعلى.
ضمّت منظومة التقييم الخاطئة سلاسل التفكير بشكل غير صحيح عند تقييم ما إذا كانت الردود مفيدة، أو ما إذا كان قد تم المساس بالنماذج عبر الهجمات. وبلغت حصة عينات التدريب المتأثرة، بحد أقصى، 3.8% من مجموعة البيانات.
قامت OpenAI بإصلاح الثغرة وإجراء تجارب مقارنة تؤكد أن النماذج لم تُطوّر سلوكيات تضليلية. كما قامت الشركة بنشر نظام فحص آلي عبر جميع مسارات التدريب لمنع تكرار المشكلة.
Related News
جيف كوفمان: يَكسر الذكاء الاصطناعي في الوقت نفسه ثقافة ثغرتين أمنيّتين، وتحوّل فترة الحظر التي تبلغ 90 يومًا إلى نتيجة عكسية
كشفت OpenAI عن تأثير غير متوقع لتقييمات سلسلة التفكير (CoT): الحفاظ على مراقبة سلسلة الأفكار يعد خط الدفاع الحاسم لمحاذاة وكلاء الذكاء الاصطناعي
تسلّح GPT-5.5-سايبر من OpenAI المدافعين الإلكترونيين