أحدثت Cerebras، الحبيبة الجديدة لرقائق الذكاء الاصطناعي التي قدمت طرحها العام الأخير، ضجة كبيرة في وادي السيليكون.


في سيناريوهات النماذج الصغيرة، تصل سرعة استنتاج الرقاقة إلى 20 ضعف سرعة H100؛ بينما في النماذج ذات الحجم الكبير جدًا (مثل 400 مليار معلمة)، يكون زمن استجابة نظام Cerebras CS-3 حوالي 2.4 ضعف سرعة B200.
فكيف تمكنت Cerebras من تحقيق ذلك؟ وهل ستصبح قاتلة لنظام NVIDIA؟
نبدأ من جوهر تطور القدرة الحاسوبية.
تتطور قدرة الحوسبة للذكاء الاصطناعي، من "القدرة الحاسوبية ذاتها" إلى "الاتصالات وهيكل النظام". على مسار هذا التطور، تقدم Cerebras Systems إجابة مختلفة تمامًا: ليست تحسين التوزيع، بل القضاء على التوزيع قدر الإمكان.
أولاً، مساران: القضاء على الاتصالات مقابل تحسين الاتصالات
الهيكلية الأساسية للقدرة الحاسوبية للذكاء الاصطناعي تنقسم حاليًا إلى فلسفتين:
إحداهما تتبع نهج NVIDIA:
رقائق متعددة (GPU)، اتصال عالي السرعة (NVLink / CPO)، توسعة أفقية (scale-out)
والأخرى تتبع مسار Cerebras:
رقاقة واحدة تصل إلى الحد الأقصى (wafer-scale)،
شبكة داخل الرقاقة تحل محل الاتصالات بين العقد، وتوسعة رأسية (scale-up)
الفرق الأساسي هو: إحداهما تتعامل مع "كيفية ربط المزيد من الرقائق"، والأخرى تتعامل مع "كيفية عدم الحاجة للربط".
ثانيًا، لماذا الآن فقط أصبح هذا النهج ممكنًا؟
wafer-scale ليس مفهومًا جديدًا، فقد حاول البعض ذلك في الثمانينيات، وفشل تجاريًا في التسعينيات. السبب هو:
عدم القدرة على تحقيق معدل إنتاج عالي
غياب آليات التحمل للأخطاء
عدم دعم البرمجيات
وبالتالي، تشكل إجماع صناعي على: die صغيرة + معدل عالٍ من النجاح + التوزيع
اختراق Cerebras يكمن في توافر ثلاثة أمور في آن واحد:
1) آلية تحمل الأخطاء بشكل هندسي
2) نضوج الشبكة داخل الرقاقة
3) توافق عبء العمل مع الذكاء الاصطناعي (توازي عالي، تزامن قوي، الاتصالات مسيطرة)
التغيير الجوهري هو: الانتقال من "مكونات صلبة مثالية" إلى "نظام قابل لتحمل الأخطاء".
ثالثًا، مقارنة الأداء: الحد الأقصى لنقطة واحدة مقابل توسعة النظام
على مستوى الاتصالات، هناك وضوح كبير في مزايا وعيوب المسارين:
1) الاتصالات داخل الرقاقة
Cerebras: داخل الرقاقة فقط → أدنى تأخير وأقل استهلاك للطاقة
CPO: لا زال يتطلب تحويل بصري-ضوئي → كفاءة النقطة الواحدة: Cerebras أفضل
2) توسعة النظام
Cerebras: بمجرد عبور الرقاقة → يعود لمشكلة الاتصالات
CPO: يمكن توسيع عرض النطاق بشكل مستمر → قدرة النظام: CPO أفضل
3) هيكل استهلاك الطاقة
Cerebras: استهلاك طاقة عالي جدًا في الجهاز الواحد، لكن الاتصالات موفرة جدًا
GPU + CPO: استهلاك طاقة عند النقطة الواحدة يمكن السيطرة عليه، وكفاءة النظام أكثر توازنًا
النتيجة واضحة جدًا:
Cerebras تفوز بـ"الحد الأقصى للجهاز الواحد"،
وCPO يفوز بـ"حجم النظام".
رابعًا، سيناريوهات الاستخدام: من يجب أن يستخدم Cerebras؟
يمكن تبسيط معايير الحكم إلى ثلاثة أسئلة:
1) هل الاتصالات هي عنق الزجاجة؟
2) هل المهمة مركزة؟
3) هل الهيكلية منتظمة؟
وبالتالي، فهي مناسبة جدًا لتدريب النماذج الكبيرة (النماذج الكثيفة)، والسياقات الطويلة جدًا، وبعض تطبيقات الحوسبة عالية الأداء (مثل المعادلات التفاضلية الجزئية، السوائل، وغيرها).
هذه المهام تتسم بـ: ترابط قوي + تزامن عالي + عرض نطاق ترددي عالٍ.
وتناسب جزئيًا استنتاج النماذج الكبيرة (قليل التوازي)، والحسابات الرسومية (عندما يكون الهيكل معقدًا وتقل الميزة).
ولا تناسب المعالجات المركزية (الحوسبة العامة)، والاستنتاج عالي التوازي، والرقائق المحمولة أو على الحافة، والأنظمة الزمنية الحقيقية.
هذه الأنظمة تتسم بـ: عدم انتظام / توازي عالي / تأخير منخفض.
خامسًا، هل ستصبح الاتجاه السائد؟
على الرغم من قوة Cerebras في سيناريوهات معينة، إلا أن الاتجاه السائد لن يسلك هذا الطريق، للأسباب التالية:
1) القيود الفيزيائية: كثافة استهلاك الطاقة؛ تأخير الإشارة → حلول التحمل للأخطاء لا تحل هذه المشاكل
2) الجدوى الاقتصادية: معدل نجاح die الصغيرة أعلى؛ والرقائق المجمعة (chiplet) أكثر مرونة
3) مسار الصناعة: TSMC وغيرها من الشركات تركز على التوحيد المعياري، وإعادة الاستخدام من قبل عملاء متعددين، وليس على وحدات ضخمة جدًا
4) تغيّر الطلب: نسبة الاستنتاج أعلى بكثير من التدريب، والمهام المتعددة والتوازي العالي تصبح السائدة
سادسًا، معنى Cerebras
بدلاً من أن يكون حجم wafer-scale هو الاتجاه المهم، فإن فلسفة تصميم التحمل للأخطاء ستُعتمد بشكل واسع.
قد تظهر في المستقبل تقنيات تحمل أخطاء على مستوى chiplet، وتغليف ي绕 الطريق.
التغيير الأساسي هو أن الأجهزة الفردية لم تعد بحاجة إلى أن تكون مثالية، والنظام يتحمل المسؤولية.
بالعودة إلى السؤال الأول: هل ستصبح Cerebras "قاتلة" لنظام NVIDIA؟
الإجابة واضحة جدًا.
لقد أصابت نقطة مهمة في ضعف نظام GPU — الاتصالات. لكن اختيار الصناعة ليس بين هذا وذاك فقط، بل يتطلب تبني العديد من الاختراقات التقنية معًا: اتصالات أكثر قوة، استهلاك أقل للطاقة في الاتصالات، وكفاءة أعلى على مستوى النظام.
لذا، التقييم الأكثر دقة هو أن Cerebras ليست قاتلة لنظام NVIDIA، بل هي أفضل ممارسة يمكن أن يستفيد منها NVIDIA وجميع شركات الرقائق.
إخلاء مسؤولية: أنا أمتلك الأسهم المذكورة في النص، ورأيي قد يكون متحيزًا، وهو ليس نصيحة استثمارية، والمخاطر عالية، ويجب الحذر الشديد عند الدخول.
(الصورة: رقاقة Cerebras واحدة)
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت