شياهو يقدّم نموذجاً عملياً لسير عمل متعدد النماذج: توليد صور بواسطة GPT وGemini 3.1 Pro لتحويلها إلى محتوى تفاعلي ثلاثي الأبعاد

شارك المراقبون على الذكاء الاصطناعي “xiaohu” في 10 مايو مثالاً على سير عمل يجمع بين GPT وGemini 3.1 Pro: يبدأ باستخدام GPT لتوليد الصور، ثم يستخدم Gemini 3.1 Pro لتحويل الصور إلى محتوى تفاعلي ثلاثي الأبعاد، ويمكن من خلاله تحويل أي موضوع معرفي إلى تطبيقات علمية قابلة للدوران وقابلة للتشغيل. وتعرض تغريدة xiaohu مثالاً يشمل عروض كواكب ثلاثية الأبعاد ونماذج علمية تفاعلية وغيرها، وهو تطبيق عملي محدد لما يُسمّى “سير عمل متعدد النماذج” (multi-model workflow).

بنية سير العمل: GPT لإنشاء الصور → تحويلها إلى 3D باستخدام Gemini 3.1 Pro

التصميم على مرحلتين لسير العمل بأكمله:

المرحلة الأولى: استخدام GPT (GPT-image-1 أو توليد الصور المدمج داخل ChatGPT) لإخراج صورة مرتبطة بالموضوع وتوفير أساس بصري

المرحلة الثانية: إدخال الصورة إلى Gemini 3.1 Pro، حيث يقوم Gemini بتحويل صورة ثنائية الأبعاد إلى محتوى تفاعلي ثلاثي الأبعاد

شكل الإخراج: كائنات ثلاثية الأبعاد قابلة للدوران والتكبير والتفاعل داخل المتصفح

حالات الاستخدام: التعليم العلمي، عرض المنتجات، محتوى تفاعلي قائم على المعرفة

يُعدّ “سير العمل متعدد النماذج” أحد أبرز الاتجاهات الرئيسية في طبقة تطبيقات الذكاء الاصطناعي لعام 2026 — فلم يعد نموذج واحد هو الأداة الشاملة، بل يقوم المطورون بربط أفضل ما لدى نماذج مختلفة، لإنجاز تطبيقات لا يستطيع نموذج واحد تنفيذها.

عرضٌ محدد: كواكب ثلاثية الأبعاد، محتوى علمي تفاعلي، مواقع ويب لبيع السلع بواسطة الروبوتات

المحاورات المتعددة التي نشرها xiaohu في الوقت نفسه:

عرض الكواكب ثلاثية الأبعاد: نظام شمسي قابل للدوران أو نموذج لكوكب واحد

محتوى علمي تفاعلي: تحويل المعرفة المجردة إلى تصور ثلاثي الأبعاد، مناسب للأغراض التعليمية

الموقع المستقبلي لبيع السلع بواسطة آلات البيع الروبوتية: استخدام توليد الصور من GPT مع منصة Tripo 3D لإخراج صفحة ويب للعرض

السمات المشتركة لهذه الأمثلة هي “التوليد البصري + التحويل إلى تفاعل” — إذ يتولّى GPT المسؤولية عن التصورات البصرية الإبداعية، بينما تتولى Gemini أو أدوات ثلاثية الأبعاد أخرى تحويل الصور الثابتة إلى أشكال تفاعلية قابلة للتشغيل. كل جزء على حدة ليس جديداً، لكن التجربة النهائية بعد ربطها معاً تكون أقوى من أي أداة منفردة.

المعنى: يصبح سير العمل متعدد النماذج تدريجياً نمط التطوير السائد

الدروس العملية للمطورين:

اختيار الأدوات أهم من اختيار أقوى نموذج — إذ يتميز GPT بالجانب البصري، وGemini بفهم متعدد الوسائط، وClaude بقدرات سياق طويلة، ولكل طرف “نقطة قوة” خاصة به

انخفاض تكلفة دمج واجهات برمجة تطبيقات النماذج، ما يجعل ربط عدة نماذج على مستوى التنفيذ أمراً قابلاً للتحقق

قد تكون التطبيقات الجديدة على الأرجح عبارة عن “خط أنابيب متعدد النماذج” لا مجرد امتداد لـ “أفضل نموذج واحد”

قيمة هذا الطرح لا تكمن في اختراق تقني، بل في توفير نموذج لتصميم سير العمل

أحداث محددة يمكن متابعتها لاحقاً: ما إذا كانت قدرة Gemini 3.1 Pro على توليد 3D سيتم الإعلان عنها رسمياً كميزة منتج من قِبل Google في نشاط لاحق، وما إذا كان سير العمل متعدد النماذج سيحصل على دعم قوالب افتراضية ضمن أطر مثل LangChain/LlamaIndex، إضافة إلى أمثلة تطبيقية محددة لحالات الاستخدام التجارية (مثل التعليم والتجارة الإلكترونية والتسويق).

ظهرت هذه المقالة التي يعرض فيها xiaohu سير العمل متعدد النماذج لأول مرة في ABMedia ضمن سلسلة أخبار السلسلة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات