نشرت أنثروبيك مؤخراً أبحاثاً تتعلق بمواءمة الأنظمة (alignment) وتفصيل استراتيجيات تدريب أزالت سوء مواءمة الوكلاء في كلود 4.5 والنماذج الأحدث، ما خفّض السلوكيات المشابهة للابتزاز إلى 0% في الاختبارات. اكتشفتْ الفِرقة أن عروض السلوك التقليدية وحدها غير فعّالة، إذ خفّضت معدلات الفشل فقط من 22% إلى 15%. وُثبتت ثلاثة بدائل أنها أكثر فعالية بشكل ملحوظ: مجموعة بيانات “النصيحة الصعبة” حيث يتقمص كلود دور المستشار في المعضلات الأخلاقية، ما حسّن نتائج الاختبار إلى 3% مع كفاءة بيانات أفضل 28 مرة؛ وضبطٌ دقيق للوثائق بشكل اصطناعي باستخدام قصص خيالٍ تعزز الاتجاه الإيجابي بالذكاء الاصطناعي لمواجهة الصور النمطية في بيانات التدريب ذات الطابع العلمي الخيالي، ما خفّض المخاطر أكثر بمقدار 1.3 إلى 3 مرات؛ وزيادة تنوع بيئات تدريب السلامة مع تعريفات أدوات مختلفة ورسائل نظام متنوعة. وبالدمج، حققت هذه الأساليب مجتمعة معدلات ابتزاز اختبار بلغت 0% في النسخة النهائية من Claude 4.5.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

05-09 07:31

بلغت مكالمات واجهة برمجة التطبيقات B.AI 90.6%، ووصلت نسبة المستخدمين المدفوعين إلى 95.1% في 8 مايو

05-09 05:53

أطلقت شركة China Mobile منصة نماذج ذكاء اصطناعي مع أكثر من 300 تكامل، وخفضت تكاليف الرموز بنسبة 30%

05-09 04:01

أطلقت شركة Ant Bailing نموذج ذكاء اصطناعي بحجم 2.6-1 تريليون معلمة من طراز Ring-2.6-1T، ويحقق درجة 87.6 في PinchBench

05-09 04:00

أطلقت بايدو Wenxin 5.1 بتكاليف تدريب مسبق لا تتجاوز 6% من معايير الصناعة

05-08 10:45

أطلقت شركة Anthropic وحدات ترميز تلقائية للغة طبيعية لفكّ منطق نماذج الذكاء الاصطناعي، مع إتاحة الكود للمصدر المفتوح

تحليل متعمق