Команда Multi-X от Oppo опубликовала X-OmniClaw — открытый фреймворк Android AI-агента, который держит основную логику на устройстве, а облачные языковые модели вызывает только для задач, требующих тяжёлого рассуждения. В отличие от большинства мобильных AI-систем, которые запускаются на облачных серверах с виртуальными копиями Android, X-OmniClaw выполняется непосредственно на физическом устройстве пользователя, сохраняя доступ к камере телефона, фото и локальным файлам.
X-OmniClaw работает через три взаимосвязанных компонента, которые образуют один непрерывный цикл, согласно технической документации Oppo.
Omni Perception объединяет видеопотоки с камеры, содержимое экрана и голосовой ввод в единый пайплайн. Визионно-языковая модель интерпретирует сцену, прежде чем агент начнёт действовать. Например, если пользователь наводит камеру на продукт и спрашивает его цену, агент сначала определяет, что именно он видит, затем открывает соответствующее приложение для покупок и начинает поиск без необходимости ручного ввода.
Omni Memory отличает X-OmniClaw от чатботов “разового ответа” тем, что сохраняет контекст между задачами, переключениями приложений и сессиями. Агент формирует долгосрочную семантическую память из фотогалереи пользователя, преобразуя исходные изображения в структурированные заметки об объектах, сценах и событиях. По данным отчёта, “непрерывность выполнения — это то, что позволяет X-OmniClaw работать как продолжающийся агент на устройстве, а не как система разовых ответов”.
Omni Action отвечает за исполнение, комбинируя данные XML-интерфейса с локальными визуальными моделями и оптическим распознаванием текста (OCR), чтобы определить, куда именно нужно нажать — даже на захламлённых экранах. Фреймворк включает функцию обучения поведенческому копированию: пользователи могут один раз записать маршрут навигации, а затем мгновенно воспроизводить его в будущих сессиях через ярлыки Android deeplink, обходя многошаговую навигацию по приложениям.
Oppo показала несколько практических применений X-OmniClaw:
Идентификация продуктов и определение цены: агент идентифицирует физический продукт через камеру, открывает Taobao, прокручивает результаты и возвращает сводку по цене без необходимости печатать.
Обучающая помощь: плавающий на экране “собеседник” помогает пользователям решать математические упражнения пошагово, автономно читая содержимое экрана, обрабатывая каждый вопрос и продвигаясь дальше, когда задача завершена.
Создание видео из галереи: когда пользователю предлагают собрать видеоролик-подборку из фотографий в тематике попугаев, система сканирует галерею, используя семантическую память для поиска совпадающих изображений, открывает видеоредактор CapCut через deeplink, пакетно выбирает файлы и генерирует видео. В отчёте указано, что этот процесс, который ранее занимал “несколько минут или дольше”, сокращается до набора из нескольких автоматизированных шагов.
X-OmniClaw продолжает архитектуру, впервые предложенную OpenClaw — открытым фреймворком агентов, который набрал более 373 тыс. звёзд на GitHub и в итоге получил поддержку от OpenAI. Hermes Agent от Nous Research развил эту идею дальше за счёт самосовершенствующегося цикла обучения, который наращивает возможности со временем. Оба проекта работали в основном на настольном оборудовании. X-OmniClaw адаптирует эту архитектуру для смартфонов: он строится на базе открытого кода HermesApp и использует структурированную модель навыков OpenClaw как базовое вдохновение, а затем кастомизирует её под мультимодальную “всегда включённую” природу мобильных устройств.
Код доступен на GitHub: Oppo обязуется выпустить все материалы и продолжать обновлять проект по мере того, как система будет развиваться.
Связанные новости
3 альткоина для покупки с высокой доходностью: рыночные подборки нацелены на рост в 3 раза в краткосрочной перспективе
Выпущен Hermes Agent v0.14.0 — подписчикам не нужно вызывать через API Key для доступа к основным платформам
Функция личных финансов ChatGPT запущена в США: можно просматривать личные банковские счета
X опубликовал исходный код алгоритма рекомендаций «For You»: практическое руководство по управлению аккаунтами в Twitter с помощью алгоритма
Агентные кошельки TON превращают Telegram-ботов в платёжные сущности