谷歌 Vision Banana:计算机视觉的« GPT-3 moment » ? 图像生成模型打败专用视觉理解模型。

Nouvelles ME, le 23 avril (UTC+8), selon la surveillance de Dongcha Beating, l'équipe de Google (auteurs incluant He Kaiming, Xie Saining et al.) a publié un article proposant Vision Banana, effectuant un réglage fin léger par instructions sur leur propre modèle de génération d'images Nano Banana Pro (c'est-à-dire Gemini 3 Pro Image), le transformant en un modèle de compréhension visuelle universel. L'approche centrale consiste à paramétrer uniformément les sorties de toutes les tâches visuelles en images RVB, permettant ainsi aux tâches de perception telles que la segmentation, l'estimation de profondeur, l'estimation de normales de surface, etc., d'être réalisées via la génération d'images, sans avoir besoin de concevoir des architectures ou des fonctions de perte spécialisées pour chaque type de tâche. L'évaluation couvre deux grandes catégories de tâches : la segmentation d'images et l'inférence géométrique 3D. En segmentation, la segmentation sémantique (attribuer une étiquette de catégorie à chaque pixel de l'image, par exemple « route », « piéton », « véhicule ») dépasse le modèle de segmentation spécialisé SAM 3 de 4,7 points de pourcentage sur Cityscapes ; la segmentation par expression référentielle (trouver et segmenter l'objet correspondant selon une description en langage naturel, par exemple « le chien portant un chapeau à gauche ») dépasse également SAM 3 Agent. Cependant, en segmentation d'instances (distinguer différents individus d'une même catégorie, par exemple identifier séparément les cinq chiens dans l'image), elle reste en retard par rapport à SAM 3. En 3D, l'estimation de profondeur métrique (calculer la distance physique réelle de chaque pixel à la caméra à partir d'une seule photo) atteint une précision moyenne de 0,929 sur quatre ensembles de données standard, supérieur aux 0,918 du modèle spécialisé Depth Anything V3, et est entièrement entraînée sur des données synthétiques, sans utiliser de données de profondeur réelles, et n'a pas besoin de paramètres de caméra lors de l'inférence. L'estimation de normales de surface (déduire l'orientation de la surface des objets) obtient les meilleurs résultats sur trois références intérieures. Le réglage fin ne fait que mélanger une petite quantité de données de tâches visuelles aux données d'entraînement originales de génération d'images, et la capacité de génération d'images du modèle n'est pratiquement pas affectée : il est à égalité avec le Nano Banana Pro original dans les évaluations de qualité de génération. L'article estime que le rôle du pré-entraînement à la génération d'images dans le domaine visuel est similaire à celui du pré-entraînement à la génération de texte dans le domaine linguistique : pendant que le modèle apprend à générer des images, il a déjà acquis les représentations internes nécessaires à la compréhension des images, et le réglage fin par instructions ne fait que les libérer. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire