Vision Banana от Google: унифицированная модель зрения превосходит специализированные модели в сегментации и 3D-геометрии

Сообщение Gate News, 23 апреля — исследователи Google, включая Хэ Кайминга и Се Сайнина, опубликовали работу, представляющую Vision Banana — универсальную модель понимания изображений, созданную с помощью легкой инструкции по дообучению для уточнения на компании Nano Banana Pro (Gemini 3 Pro Image) модель генерации изображений. Ключевое нововведение унифицирует выходы всех задач компьютерного зрения в виде RGB-изображений, позволяя выполнять сегментацию, оценку глубины и предсказание нормалей поверхности посредством генерации изображений без специализированных архитектур или функций потерь.

В семантической сегментации Vision Banana превзошла специализированную модель SAM 3 на 4,7 процентного пункта на Cityscapes; в сегментации по референсному выражению она обошла SAM 3 Agent. Однако в инстанс-сегментации она уступила SAM 3. Для 3D-задач метрическая оценка глубины достигла 0,929 средней точности на четырех стандартных наборах данных, превзойдя Depth Anything V3 с 0,918, используя только синтетические данные без реальной информации о глубине или параметров камеры на этапе инференса. Оценка нормалей поверхности достигла уровня лучших на сегодняшний день результатов на трех внутренних бенчмарках.

Дообучение включало минимальный объем данных по задачам зрения, смешанный с исходным обучением генерации изображений, сохраняя способность модели к генерации — производительность совпала с оригинальной Nano Banana Pro в тестах качества генерации. В работе предлагается, что предварительное обучение генерации изображений в зрении параллельно предварительному обучению генерации текста в языке: модели учатся внутренним представлениям, необходимым для понимания изображений, во время генерации, а инструкционное дообучение лишь высвобождает эту возможность.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Cloudflare: AI-агенты создают не-человеческий трафик, x402 предлагает решение

Главный директор по стратегии Cloudflare заявил, что теперь более половины интернет-трафика является не человеческим, подчеркнув существенный сдвиг в моделях использования веба, обусловленный ИИ-агентами и автоматизированными системами. Руководитель также предположил, что Фонд x402 строит инфраструктуру для решения стоящих проблем

CryptoFrontier43м назад

IREN приобретает Mirantis в рамках сделки полностью акциями $625M , чтобы расширить платформу AI Cloud

По данным BlockBeats, IREN Limited договорилась приобрести компанию по разработке ПО для облачной инфраструктуры Mirantis примерно за $625 миллионов в сделке с оплатой полностью акциями 5 мая. Приобретение направлено на расширение возможностей IREN в облачных сервисах на базе ИИ за счёт внедрения ПО и возможностей оркестрации для

GateNews6ч назад

Генеральный директор Anthropic: США рассматривают упрощённый процесс выпуска модели ИИ, конкуренты отстают на 1–3 месяца

Согласно 金十, генеральный директор Anthropic сообщил 5 мая, что, похоже, правительство США рассматривает возможность упрощения процесса выпуска моделей искусственного интеллекта. Глава компании отметил, что возможности других крупных AI-лабораторий могут отставать от Anthropic на 1–3

GateNews6ч назад

Команда SGLang завершила $100M раунд посевного финансирования на $400M оценку, Accel возглавляет

По данным Beating, команда, стоящая за открытым исходным кодом inference-движка SGLang, официально учредила RadixArk и завершила раунд seed-финансирования на $100 миллионов при оценке в $400 миллионов после получения средств. Accel возглавила раунд, а Spark Capital выступила со-ведущим инвестором. Полупроводниковые конкуренты Nvidia (через

GateNews7ч назад

OpenAI предоставляет 8 000 разработчикам увеличение лимита скорости Codex в 10 раз до 5 июня

По данным Beating, OpenAI отправила письма более чем 8 000 разработчикам, которые зарегистрировались на офлайн-мероприятие GPT-5.5 в Сан-Франциско, предоставив им 10-кратное увеличение лимитов скорости Codex, действующее немедленно вплоть до 5 июня. Все заявители получают награду независимо от того, получили ли они приглашение на мероприятие

GateNews7ч назад

Совместное предприятие OpenAI с Anthropic ведёт переговоры о покупке трёх компаний, предоставляющих услуги в сфере ИИ, 5 мая

По данным Jin 10, совместное предприятие OpenAI с Anthropic ведёт переговоры о приобретении трёх компаний, оказывающих AI-услуги, 5 мая. Сообщается, что в число целевых компаний входят инженерно-ориентированные фирмы, работающие в сфере AI-услуг

GateNews7ч назад
комментарий
0/400
Нет комментариев