شياهو يقدّم نموذجاً عملياً لسير عمل متعدد النماذج: توليد صور بواسطة GPT وGemini 3.1 Pro لتحويلها إلى محتوى تفاعلي ثلاثي الأبعاد

2026-05-10 09:16:05

شارك المراقبون على الذكاء الاصطناعي “xiaohu” في 10 مايو مثالاً على سير عمل يجمع بين GPT وGemini 3.1 Pro: يبدأ باستخدام GPT لتوليد الصور، ثم يستخدم Gemini 3.1 Pro لتحويل الصور إلى محتوى تفاعلي ثلاثي الأبعاد، ويمكن من خلاله تحويل أي موضوع معرفي إلى تطبيقات علمية قابلة للدوران وقابلة للتشغيل. وتعرض تغريدة xiaohu مثالاً يشمل عروض كواكب ثلاثية الأبعاد ونماذج علمية تفاعلية وغيرها، وهو تطبيق عملي محدد لما يُسمّى “سير عمل متعدد النماذج” (multi-model workflow).

بنية سير العمل: GPT لإنشاء الصور → تحويلها إلى 3D باستخدام Gemini 3.1 Pro

التصميم على مرحلتين لسير العمل بأكمله:

المرحلة الأولى: استخدام GPT (GPT-image-1 أو توليد الصور المدمج داخل ChatGPT) لإخراج صورة مرتبطة بالموضوع وتوفير أساس بصري

المرحلة الثانية: إدخال الصورة إلى Gemini 3.1 Pro، حيث يقوم Gemini بتحويل صورة ثنائية الأبعاد إلى محتوى تفاعلي ثلاثي الأبعاد

شكل الإخراج: كائنات ثلاثية الأبعاد قابلة للدوران والتكبير والتفاعل داخل المتصفح

حالات الاستخدام: التعليم العلمي، عرض المنتجات، محتوى تفاعلي قائم على المعرفة

يُعدّ “سير العمل متعدد النماذج” أحد أبرز الاتجاهات الرئيسية في طبقة تطبيقات الذكاء الاصطناعي لعام 2026 — فلم يعد نموذج واحد هو الأداة الشاملة، بل يقوم المطورون بربط أفضل ما لدى نماذج مختلفة، لإنجاز تطبيقات لا يستطيع نموذج واحد تنفيذها.

عرضٌ محدد: كواكب ثلاثية الأبعاد، محتوى علمي تفاعلي، مواقع ويب لبيع السلع بواسطة الروبوتات

المحاورات المتعددة التي نشرها xiaohu في الوقت نفسه:

عرض الكواكب ثلاثية الأبعاد: نظام شمسي قابل للدوران أو نموذج لكوكب واحد

محتوى علمي تفاعلي: تحويل المعرفة المجردة إلى تصور ثلاثي الأبعاد، مناسب للأغراض التعليمية

الموقع المستقبلي لبيع السلع بواسطة آلات البيع الروبوتية: استخدام توليد الصور من GPT مع منصة Tripo 3D لإخراج صفحة ويب للعرض

السمات المشتركة لهذه الأمثلة هي “التوليد البصري + التحويل إلى تفاعل” — إذ يتولّى GPT المسؤولية عن التصورات البصرية الإبداعية، بينما تتولى Gemini أو أدوات ثلاثية الأبعاد أخرى تحويل الصور الثابتة إلى أشكال تفاعلية قابلة للتشغيل. كل جزء على حدة ليس جديداً، لكن التجربة النهائية بعد ربطها معاً تكون أقوى من أي أداة منفردة.

المعنى: يصبح سير العمل متعدد النماذج تدريجياً نمط التطوير السائد

الدروس العملية للمطورين:

اختيار الأدوات أهم من اختيار أقوى نموذج — إذ يتميز GPT بالجانب البصري، وGemini بفهم متعدد الوسائط، وClaude بقدرات سياق طويلة، ولكل طرف “نقطة قوة” خاصة به

انخفاض تكلفة دمج واجهات برمجة تطبيقات النماذج، ما يجعل ربط عدة نماذج على مستوى التنفيذ أمراً قابلاً للتحقق

قد تكون التطبيقات الجديدة على الأرجح عبارة عن “خط أنابيب متعدد النماذج” لا مجرد امتداد لـ “أفضل نموذج واحد”

قيمة هذا الطرح لا تكمن في اختراق تقني، بل في توفير نموذج لتصميم سير العمل

أحداث محددة يمكن متابعتها لاحقاً: ما إذا كانت قدرة Gemini 3.1 Pro على توليد 3D سيتم الإعلان عنها رسمياً كميزة منتج من قِبل Google في نشاط لاحق، وما إذا كان سير العمل متعدد النماذج سيحصل على دعم قوالب افتراضية ضمن أطر مثل LangChain/LlamaIndex، إضافة إلى أمثلة تطبيقية محددة لحالات الاستخدام التجارية (مثل التعليم والتجارة الإلكترونية والتسويق).

ظهرت هذه المقالة التي يعرض فيها xiaohu سير العمل متعدد النماذج لأول مرة في ABMedia ضمن سلسلة أخبار السلسلة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

05-10 06:21

تجري Google اختبارات توظيف تتيح للمهندسين استخدام أدوات الذكاء الاصطناعي

05-10 04:13

مايكروسوفت تفتح الشيفرة المصدرية لنموذج Phi-Ground 4B، وتتفوق على OpenAI Operator وClaude في دقة النقر على الشاشة

05-09 05:53

تعتزم Google فرض استخدام الذكاء الاصطناعي في مقابلات الترميز، مع إطلاق توظيف مدعوم بـ Gemini في وقت لاحق من هذا العام