مايكروسوفت تفتح الشيفرة المصدرية لنموذج Phi-Ground 4B، وتتفوق على OpenAI Operator وClaude في دقة النقر على الشاشة

بناءً على Beating، فتحت مايكروسوفت مؤخراً نموذج Phi-Ground للعائلة المصدر المفتوح، المصمم لمعالجة مشكلة أين ينبغي للذكاء الاصطناعي أن ينقر على شاشة الكمبيوتر. فقد تفوّق إصدار 4 مليارات معلمات، بالاقتران مع نماذج لغوية أكبر لتخطيط التعليمات، على دقة النقر لدى OpenAI Operator وClaude Computer Use في معيار Showdown، واحتل المركز الأول بين جميع نماذج أقل من 100 مليار معلمة عبر خمس عمليات تقييم، بما في ذلك ScreenSpot-Pro.

تدرّبت المجموعة على أكثر من 40 مليون عينة بيانات، ووجدت أن ثلاث تقنيات تدريب شائعة تُستخدم في الأوراق الأكاديمية أصبحت غير فعّالة عند التطبيق على نطاق واسع. وقد ثبت أن النهج الأساسي بسيط: إخراج الإحداثيات كأرقام عادية، مثل “523, 417”. ابتكرت أبحاث سابقة مفردات موضعية متخصصة للإحداثيات، لكن ذلك لم ينجح عند التوسع. كما اكتشفت المجموعة أن وضع تعليمات نصية قبل الصور يحسّن الأداء، إذ يمكن للنماذج تحديد الأهداف أثناء معالجة وحدات البكسل. بالإضافة إلى ذلك، حسّنت طرق التعلم التعزيزي مثل DPO الدقة حتى بعد إجراء الضبط الدقيق.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات