Oppo X-OmniClaw: وكيل ذكاء اصطناعي يعمل بنظام Android مفتوح المصدر ويعمل محلياً دون سحابة

OliverGrant

نشر فريق Multi-X التابع لشركة Oppo إطار عمل وكلاء Android بنظام الذكاء الاصطناعي X-OmniClaw مفتوح المصدر، يحافظ على المنطق الأساسي على الجهاز مباشرةً، مع استدعاء نماذج لغوية تعتمد على السحابة فقط لمهام الاستدلال الثقيلة. على عكس معظم أنظمة الذكاء الاصطناعي في الهواتف التي تعمل على خوادم سحابية تستضيف نسخًا افتراضية من Android، ينفّذ X-OmniClaw مباشرةً على الجهاز المادي للمستخدم، محافظًا على إمكانية الوصول إلى كاميرا الهاتف والصور والملفات المحلية.

البنية المعمارية: ثلاثة ركائز للذكاء على الجهاز

يعمل X-OmniClaw عبر ثلاثة مكوّنات مترابطة تعمل كحلقة مستمرة واحدة، وفقًا لوثائق Oppo التقنية.

Omni Perception يجمع بين تغذيات الكاميرا ومحتوى الشاشة وإدخال الصوت في خط عمل واحد. يفسّر نموذج رؤية-لغة المشهد قبل أن يتخذ الوكيل إجراءً. على سبيل المثال، إذا وجّه المستخدم كاميرته نحو منتج وطلب معرفة سعره، يحدد الوكيل أولًا ما الذي يراه، ثم يفتح تطبيق التسوق المناسب ويبدأ البحث دون الحاجة إلى إدخال يدوي.

Omni Memory يميّز X-OmniClaw عن روبوتات المحادثة لمرة واحدة عبر الحفاظ على السياق عبر المهام وتبديل التطبيقات والجلسات. يبني الوكيل ذاكرة دلالية طويلة الأمد اعتمادًا على معرض صور المستخدم، محوّلًا الصور الخام إلى ملاحظات منظّمة حول الأشياء والمشاهد والأحداث. ووفقًا للتقرير، فإن “استمرارية وقت التشغيل هي ما يسمح لـ X-OmniClaw بالعمل كوكيل جهاز مستمر بدلًا من نظام استجابة لمرة واحدة”.

Omni Action يتولى التنفيذ عبر الجمع بين بيانات واجهة XML ونماذج بصرية تعمل على الجهاز وإجراء التعرف على الأحرف بصريًا (OCR) لتحديد ما يجب النقر عليه بدقة، حتى على الشاشات المزدحمة. تتضمن المنصة ميزة استنساخ السلوك التي تتيح للمستخدم تسجيل مسار تنقل مرة واحدة، ثم إعادة تشغيله فورًا عبر اختصارات Android deeplink في الجلسات المستقبلية، متجاوزًا التنقل متعدد الخطوات داخل التطبيقات.

أمثلة تشغيلية

عرضت Oppo عدة تطبيقات عملية لـ X-OmniClaw:

  • تحديد المنتجات وتسعيرها: يحدد الوكيل منتجًا فعليًا عبر الكاميرا، ويفتح Taobao، ويقوم بالتمرير عبر النتائج، ثم يعيد ملخصًا للسعر دون الحاجة إلى أي كتابة.

  • مساعدة تعليمية: يساعد مرافق عائم على الشاشة المستخدم في حل تمارين الرياضيات خطوة بخطوة، بقراءة محتوى الشاشة تلقائيًا ومعالجة كل سؤال والتقدم عند اكتماله.

  • إنشاء فيديو من المعرض: عند طلب تجميع فيديو لقطات مميزة من صور مستوحاة من الببغاء، يقوم النظام بمسح المعرض باستخدام الذاكرة الدلالية للعثور على الصور المتطابقة، ويفتح محرر فيديو CapCut عبر deeplink، ويحدد الملفات على دفعات، ثم ينشئ الفيديو. يشير التقرير إلى أن هذه العملية التي كانت تتطلب سابقًا “بضع دقائق أو أكثر” تُختصر إلى عدد قليل من الخطوات الآلية.

التموضع ضمن منظومة وكلاء الذكاء الاصطناعي

يوسّع X-OmniClaw بنية رائدة بواسطة OpenClaw، وهو إطار عمل لوكلاء مفتوح المصدر وصل إلى أكثر من 373,000 نجمة على GitHub، وتمت دعمه لاحقًا من OpenAI. طوّرت Hermes Agent من Nous Research الفكرة أكثر عبر حلقة تعلم ذاتية التحسين تُراكِم القدرات مع مرور الوقت. عمل المشروعان أساسًا على عتاد الحاسوب المكتبي. يكيّف X-OmniClaw هذه البنية للهواتف الذكية عبر البناء على قاعدة كود HermesApp مفتوحة المصدر وإدخال نموذج المهارات المهيكل لدى OpenClaw بوصفه مصدر إلهام أساسي، ثم تخصيصه لطبيعة الأجهزة المحمولة متعددة الوسائط التي تعمل دائمًا.

يتوفر الكود على GitHub، حيث التزمت Oppo بإصدار جميع الأصول والاستمرار في تحديث المشروع مع تطور النظام.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات