DeepSeek V4训练数据增至33T:引发不稳定性并导致发布延迟

Gate News消息,4月24日——DeepSeek的V4技术报告显示,V4-Flash和V4-Pro分别在32T和33T tokens上进行了预训练,相当于用于V3的约15T tokens的两倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”,并且由于Mixture-of-Experts (MoE)层中的异常,loss多次反复出现尖峰;路由机制本身会加剧这些异常,而简单的回滚无法解决该问题。

DeepSeek目前已在实际训练中应用两项解决方案:先行路由(Anticipatory Routing),将路由索引计算与主干网络更新解耦,并且仅在检测到loss尖峰时自动触发 (adding approximately 20% overhead);以及SwiGLU钳制(SwiGLU Clamping),通过将激活值直接钳制到固定范围内来抑制异常。该报告称这两种方法都有效,但也承认“底层原理仍未被充分理解”。

Susan Zhang,谷歌DeepMind研究员,曾在Meta AI和OpenAI工作,她评论称,由于训练数据翻倍触发的不稳定性“解释了延迟”。她将这两项解决方案描述为“补丁”,同时也承认DeepSeek的技术透明度。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

بحث من مايكروسوفت: فقط 13% من الموظفين فشلوا في تحقيق ابتكارات في أماكن العمل مدفوعة بالذكاء الاصطناعي رغم حوافز الشركات

استناداً إلى تقرير «مؤشر اتجاهات العمل السنوي» الذي نشرته مايكروسوفت في 5 مايو، حلّل التقرير تريليونات من إشارات إنتاجية Microsoft 365 المجهولة، وأجرى استطلاعاً لــ20,000 موظف في أسواق متعددة، من بينها الولايات المتحدة والمملكة المتحدة والهند واليابان. وتُظهر بيانات التقرير أن 13% فقط من الموظفين أفادوا بأن أرباب عملهم يمنحون حوافز عندما لا تؤدي محاولاتهم لتحسين العمل باستخدام الذكاء الاصطناعي إلى النتائج المتوقعة.

MarketWhisperمنذ 3 د

تطوّر شركة Meta مساعدًا ذكاءً اصطناعيًا باسم Hatch يَستهدف منافسة OpenClaw، على أن يتم الانتهاء من الاختبارات الداخلية بحلول نهاية يونيو

أفادت صحيفة «فاينانشال تايمز» في 5 مايو أن «ميتا» تعمل على تطوير مساعد ذكاء اصطناعي موجّه للمستهلكين (Hatch)، مستوحى من OpenClaw التابعة لـ OpenAI، بهدف إتمام الاختبارات الداخلية بحلول نهاية يونيو؛ كما تخطط «ميتا» لدمج أداة مستقلة للتسوق بنمط الوكلاء ضمن خدمات «إنستغرام» قبل الربع الرابع من هذا العام.

MarketWhisperمنذ 13 د

فتح جلسة استماع قضائية في محكمة تتعلق بـ OpenAI، ويشهد بروكمان: ماسك كان قد قال إنه لن يهتم بالأمان، وأن التعاملات بالأسهم قد تعرض لخطر العنف أو المشادات القاسية

وذكرت صحيفة نيويورك بوست في 6 مايو أن الرئيس التنفيذي لشركة OpenAI، غريغ بروكمان، مثل أمام محكمة اتحادية في مقاطعة أوكلاند بولاية كاليفورنيا في 5 مايو للإدلاء بشهادة كشف خلالها خطابًا ألقاه إيلون ماسك في 2018 عند خروجه من مجلس إدارة OpenAI أمام الجميع، حيث قال إنه أثناء دفعه لتطوير الذكاء الاصطناعي في شركة تيسلا «لن يضيّع وقتًا على السلامة». كما كشفت الشهادة أن ماسك ناقش في 2017 مع المؤسسَين المشاركين لـ OpenAI موضوع حصص الملكية في نقاشات اتسمت بالتهديد والحدة.

MarketWhisperمنذ 1 س

شركات هندية للأمن السيبراني تستخدم الذكاء الاصطناعي لتقليص اختبار الثغرات إلى ساعات

تقوم شركات الأمن السيبراني الهندية، بما في ذلك Indusface وAstra Security، باعتماد وكلاء ذكاء اصطناعي مبنية على النماذج اللغوية الكبيرة لتسريع اختبار الثغرات الأمنية في البرمجيات من أيام أو أسابيع إلى ساعات، وفقاً لصحيفة The Economic Times. ويعكس هذا التحول تزايد سرعة المهاجمين وقدرة أدوات الذكاء الاصطناعي الناشئة على

CryptoFrontierمنذ 1 س

دحض فقاعة الذكاء الاصطناعي! الرئيس التنفيذي لشركة بليد: نقص القدرة الحاسوبية سيوجِد «سوق عقود مستقبلية للقدرة الحاسوبية»

مع تزايد عالمي هائل في الطلب على الذكاء الاصطناعي وقدرات الحوسبة، دحض رئيس شركة بلاك روك التنفيذي فنك مزاعم فقاعة الذكاء الاصطناعي، قائلاً إن النقص في قدرات الحوسبة سيؤدي إلى ظهور فئة أصول جديدة هي "عقود آجلة على الحوسبة" كأداة استثمارية. وتهيئةً لهذا الاتجاه، تتعاون بلاك روك مع مايكروسوفت وNVIDIA وMGX للاستثمار بمئات المليارات من الدولارات في مراكز البيانات والبنية التحتية للطاقة؛ وتقوم GIP بشراء Aligned Data Centers مقابل نحو 40 مليار دولار، كما تتعاون مع EQT في صفقة تبلغ 10.7 مليار دولار للاستحواذ على AES. ويرى فنك وآخرون من بينهم Brookfield أن هذا يشكّل فرصة استثمارية مركّبة وطويلة الأجل ومنضبطة، يمكن أن تستمر عوائدها لسنوات تمتد لعقود.

ChainNewsAbmediaمنذ 2 س
تعليق
0/400
لا توجد تعليقات