استنادًا إلى إعلان NVIDIA الرسمي الصادر في 28 أبريل (بواسطة Kari Briski)، أطلقت NVIDIA Nemotron 3 Nano Omni، وهو نموذج متعدد الوسائط مفتوح المصدر يدمج قدرات الرؤية والصوت واللغة في نموذج واحد، بهدف تزويد أنظمة وكلاء AI بطبقة “استشعار” أقل كلفة وأكثر انخفاضًا في زمن التأخير.
المواصفات الأساسية: 30B-A3B MoE، سياق 256K، إنتاجية أعلى بـ9 أضعاف، وتصدّر 6 قوائم تصنيف
الهندسة المعمارية الرئيسية:
30B-A3B hybrid mixture-of-experts (إجمالي 30B معامل، وتفعيل 3B)
دمج Conv3D وEVS ترميز
طول سياق 256K
المدخلات: نص، صور، صوت، فيديو، ملفات، مخططات، شاشات GUI
المخرجات: نص
مؤشرات الأداء: يحقق إنتاجية أعلى بـ9 أضعاف مقارنةً ببقية نماذج omni مفتوحة المصدر الأخرى عند مستوى تفاعل مماثل؛ ويتصدر 6 قوائم تصنيف معيارية ضمن ثلاث فئات رئيسية تشمل ذكاء المستندات وفهم الفيديو وفهم الصوت (لم تذكر NVIDIA درجاتًا محددة، ما يوجّه القرّاء إلى مدونة المطورين للاطلاع على التفاصيل).
وضعت NVIDIA Nemotron 3 Nano Omni في موقع “العين والأذن” داخل أنظمة الوكلاء، بحيث يمكنها العمل ضمن نفس عائلة النماذج مع Nemotron 3 Super (تنفيذ عالي التواتر) وNemotron 3 Ultra (تخطيط أعقد)، كما يمكنها التوافق مع نماذج سحابية من جهات طرف ثالث. سيناريوهات تطبيق وكيل نمطية ثلاثة:
وكيل تشغيل الحاسوب (Computer Use Agent): استدلال بصري بدقة أصلية 1920×1080
ذكاء المستندات: استدلال يتعامل عبر الصور والجداول واللقطات وما إلى ذلك من مدخلات وسائط مختلطة
فهم الصوت/الفيديو: دمج الكلام واللقطات والتسجيلات في سلسلة استدلال واحدة
تشكيلة المتبنين: Foxconn، وPalantir، وتصريح مُسمّى من الرئيس التنفيذي لـ H Company
تفرق NVIDIA في إعلانها بوضوح بين “تبنٍّ قيد الإنتاج” و“تقييم جارٍ”:
تبنٍّ قيد الإنتاج: Aible، Applied Scientific Intelligence (ASI)، Eka Care، Foxconn (鴻海)، H Company، Palantir، Pyler
تقييم جارٍ: Amdocs، Dell، Docusign، Infosys، IQVIA، Lila، Oracle، Quantiphi، TCS، Zefr وغيرها
صرّح الرئيس التنفيذي لـ H Company Gautier Cloix في الإعلان بالاسم: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” ترجمتها: “لصنع وكلاء مفيدين، لا يمكنك الانتظار لثوانٍ حتى يفسّر النموذج شاشة. بالاستناد إلى Nemotron 3 Nano Omni، يمكن لوكلائنا تفسير تسجيلات شاشات بدقة Full HD بسرعة — وهو ما لم يكن عمليًا من قبل.”
استراتيجية الانفتاح والتوزيع: الأوزان / مجموعات البيانات / طرق التدريب كلها متاحة علنًا
عند الإطلاق، كشفت NVIDIA أيضًا عن:
أوزان النموذج
مجموعات بيانات التدريب
تقنيات التدريب/المنهجيات
وتشمل قنوات النشر ثلاث طبقات:
محطات العمل المحلية: NVIDIA DGX Spark، DGX Station
خدمات NIM المصغّرة: build.nvidia.com
المنصات التابعة لجهات طرف ثالث: Hugging Face، OpenRouter، مع توفير ذلك أيضًا عبر أكثر من 25 شريكًا سحابيًا من NVIDIA وشركات منصات الاستدلال ومقدمي خدمات السحابة
تُستخدم الأدوات المخصصة عبر NVIDIA NeMo. خلال العام الماضي، تراكمت عمليات تنزيل عائلة Nemotron 3 (Nano/Super/Ultra) على Hugging Face بما يزيد عن 50 مليون مرة، وقد وسّع Omni في هذه المرة قدرات هذه العائلة إلى مجالات متعددة الوسائط وagentic.
ظهرت هذه المقالة التي نشرتها NVIDIA حول Nemotron 3 Nano Omni: نموذج متعدد الوسائط مفتوح المصدر لأول مرة على موقع 鏈新聞 ABMedia.
مقالات ذات صلة
أطلق Virtuals Protocol حملة إيردروب OpenGradient Titan لتوزيع 500K OPG اليوم
تعلن NeoSoul وAllScale شراكة استراتيجية اليوم بشأن ائتمان الوكلاء وتسوية العملات المستقرة
تطوير وكالات الذكاء الاصطناعي لمكافحة غسل الأموال من شركة FIS وشركة Anthropic، مع بدء الطرح لبنك BMO وبنك Amalgamated Bank في النصف الثاني من عام 2026
يطلق Prime Intellect Lab الإتاحة العامة في 7 مايو، ويُنهي أكثر من 10,000 جلسة تدريبية في مرحلة الاختبار
تطلق Cloudflare 1 مليار استجابة HTTP 402 يومياً في مؤتمر Consensus 2026، وتطلق إطار موثوقية الوكلاء بالشراكة مع Visa وExperian
ريد هوفمان: ستحتاج وكلاء الذكاء الاصطناعي إلى أنظمة ثقة مبنية على التشفير