Борясь с трудностями, Microsoft недавно открыла исходный код семейств модели Phi-Ground, предназначенных для решения проблемы того, где именно ИИ должен кликать по экрану компьютера. Версия на 4 миллиарда параметров в паре с более крупными языковыми моделями для планирования инструкций превзошла по точности кликов OpenAI Operator и Claude Computer Use в бенчмарке Showdown и заняла первое место среди всех моделей с менее чем 100 миллиардами параметров по пяти оценкам, включая ScreenSpot-Pro.

Команда обучалась на более чем 40 миллионов наборах данных и выяснила, что три распространённые техники обучения из научных работ перестали работать эффективно при масштабировании. Ключевой подход оказался простым: выводить координаты как обычные числа, например «523, 417». Ранее исследования предлагали специализированные словари позиций для координат, но они не масштабировались. Также команда обнаружила, что размещение текстовых инструкций перед изображениями повышает качество, поскольку модели могли распознавать цели, обрабатывая пиксели. Кроме того, методы обучения с подкреплением, такие как DPO, улучшали точность даже после дообучения.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-09 11:17

Google DeepMind AI со-математик достиг 47,9% на FrontierMath Tier 4, обогнав GPT-5.5 Pro, и решил 3 ранее неразрешимые задачи

05-09 09:54

Система вознаграждений OpenAI непреднамеренно оценивает цепочки рассуждений на 6 моделях, включая GPT-5.4

05-09 09:21

OpenAI выпустила инструмент миграции Codex для импорта конфигураций от конкурирующих ИИ-ассистентов

05-09 05:53

Китайская China Mobile запускает платформу для моделей ИИ с 300+ интеграциями, снижает стоимость токенов на 30%

05-09 04:01

Ant Bailing выпускает AI-модель Ring-2.6-1T с 87,6 PinchBench Score и 2,6 триллиона параметров

Детальный анализ