L’équipe Multi-X d’Oppo a publié X-OmniClaw, un framework open-source d’agent IA Android qui conserve la logique principale sur l’appareil tout en faisant appel à des modèles de langage basés dans le cloud uniquement pour les tâches de raisonnement les plus lourdes. Contrairement à la plupart des systèmes d’IA mobile qui s’appuient sur des serveurs cloud hébergeant des copies virtuelles d’Android, X-OmniClaw s’exécute directement sur le terminal physique de l’utilisateur, avec accès à la caméra du téléphone, aux photos et aux fichiers locaux.
X-OmniClaw fonctionne grâce à trois composants interconnectés qui forment une boucle continue, selon la documentation technique d’Oppo.
Omni Perception combine les flux de la caméra, le contenu de l’écran et l’entrée vocale dans un pipeline unique. Un modèle vision-langage interprète la scène avant que l’agent n’agisse. Par exemple, si un utilisateur pointe sa caméra vers un produit et demande son prix, l’agent identifie d’abord ce qu’il voit, puis ouvre l’application de shopping concernée et commence à chercher sans nécessiter d’entrée manuelle.
Omni Memory distingue X-OmniClaw des chatbots à réponse unique en conservant le contexte au fil des tâches, des changements d’application et des sessions. L’agent construit une mémoire sémantique à long terme à partir de la galerie photo de l’utilisateur, en transformant des images brutes en notes structurées sur les objets, les scènes et les événements. D’après le rapport, « la continuité en temps d’exécution est ce qui permet à X-OmniClaw de fonctionner comme un agent de l’appareil en cours, plutôt que comme un système de réponse ponctuelle ».
Omni Action gère l’exécution en combinant des données d’interface XML avec des modèles visuels fonctionnant sur l’appareil et de la reconnaissance optique de caractères (OCR) pour déterminer précisément quoi toucher, même sur des écrans encombrés. Le framework inclut une fonctionnalité de behavior cloning qui permet aux utilisateurs d’enregistrer un itinéraire une fois, puis de le rejouer instantanément lors de sessions futures via des raccourcis Android deeplink, en contournant une navigation d’applications en plusieurs étapes.
Oppo a présenté plusieurs applications concrètes de X-OmniClaw :
Identification de produits et tarification : l’agent identifie un produit physique via la caméra, ouvre Taobao, fait défiler les résultats et renvoie un résumé du prix sans nécessiter de saisie.
Aide à l’apprentissage : un compagnon flottant à l’écran aide les utilisateurs à résoudre des exercices de mathématiques étape par étape, de manière autonome, en lisant le contenu de l’écran, en traitant chaque question, puis en avançant une fois la tâche terminée.
Création de vidéos à partir de la galerie : lorsqu’on lui demande d’assembler une vidéo récapitulative à partir de photos à thème perroquet, le système scanne la galerie à l’aide de la mémoire sémantique pour retrouver des images correspondantes, ouvre l’éditeur vidéo de CapCut via deeplink, sélectionne des fichiers par lots, puis génère la vidéo. Le rapport indique que ce processus, qui demandait auparavant « quelques minutes ou plus », est réduit à quelques étapes automatisées.
X-OmniClaw étend une architecture initiée par OpenClaw, un framework d’agent open-source qui a atteint plus de 373 000 étoiles sur GitHub et a finalement été soutenu par OpenAI. Hermes Agent de Nous Research a fait progresser davantage le concept avec une boucle d’apprentissage auto-améliorée qui accroît les capacités avec le temps. Les deux projets tournaient principalement sur du matériel de bureau. X-OmniClaw adapte cette architecture aux smartphones en s’appuyant sur la base de code open-source HermesApp et en intégrant le modèle de compétences structuré d’OpenClaw comme source d’inspiration fondamentale, puis en le personnalisant pour la nature multimodale et toujours active des appareils mobiles.
Le code est disponible sur GitHub, et Oppo s’est engagé à publier l’ensemble des ressources et à continuer de mettre à jour le projet à mesure que le système évolue.
Actualités associées
3 altcoins à acheter pour des rendements élevés : le marché vise des gains de 3x à court terme
Publication de Hermes Agent v0.14.0 : les utilisateurs abonnés n’ont pas besoin d’appeler les API avec une clé API pour les principales plateformes
La fonctionnalité de finances personnelles de ChatGPT a été lancée aux États-Unis et permet de consulter les comptes bancaires personnels.
X publie le code source de l’algorithme de recommandation « For You » : un guide pratique pour gérer des comptes Twitter avec l’algorithme
Les portefeuilles agentiques de TON transforment les bots Telegram en entités de dépense