Microsoft открывает исходный код модели Phi-Ground 4B, превосходит OpenAI Operator и Claude по точности кликов по экрану

Борясь с трудностями, Microsoft недавно открыла исходный код семейств модели Phi-Ground, предназначенных для решения проблемы того, где именно ИИ должен кликать по экрану компьютера. Версия на 4 миллиарда параметров в паре с более крупными языковыми моделями для планирования инструкций превзошла по точности кликов OpenAI Operator и Claude Computer Use в бенчмарке Showdown и заняла первое место среди всех моделей с менее чем 100 миллиардами параметров по пяти оценкам, включая ScreenSpot-Pro.

Команда обучалась на более чем 40 миллионов наборах данных и выяснила, что три распространённые техники обучения из научных работ перестали работать эффективно при масштабировании. Ключевой подход оказался простым: выводить координаты как обычные числа, например «523, 417». Ранее исследования предлагали специализированные словари позиций для координат, но они не масштабировались. Также команда обнаружила, что размещение текстовых инструкций перед изображениями повышает качество, поскольку модели могли распознавать цели, обрабатывая пиксели. Кроме того, методы обучения с подкреплением, такие как DPO, улучшали точность даже после дообучения.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев