Xiaohu démontre un flux de travail intermodèles : génération d’images avec GPT + contenu interactif 3D converti depuis Gemini 3.1 Pro

2026-05-10 09:16:05

L’observateur d’IA chinois xiaohu a partagé le 10 mai un exemple de workflow combinant GPT et Gemini 3.1 Pro : d’abord utiliser GPT pour générer des images, puis utiliser Gemini 3.1 Pro pour transformer ces images en contenus 3D interactifs, pouvant faire de n’importe quel sujet de connaissances des applications scientifiques rotatives et actionnables. Les exemples présentés dans le tweet de xiaohu incluent des démonstrations de planètes en 3D, des modèles scientifiques interactifs, etc. Il s’agit d’une pratique concrète du « workflow inter-modèles » (multi-model workflow).

Structure du workflow : GPT pour générer des images → Gemini 3.1 Pro pour les rendre en 3D

Conception en deux étapes du workflow :

Étape 1 : utiliser GPT (GPT-image-1 ou la génération d’images intégrée à ChatGPT) pour produire une image de sujet et fournir la base visuelle

Étape 2 : entrer l’image dans Gemini 3.1 Pro, puis Gemini convertit une image 2D en contenu interactif 3D

Format de sortie : des objets 3D rotatifs, zoomables et interactifs dans un navigateur

Cas d’usage : éducation scientifique, démonstration de produits, contenus de connaissances interactifs

Le « workflow inter-modèles » est l’une des tendances clés de la couche d’applications IA en 2026 : un modèle unique n’est plus un outil universel, et les développeurs enchaînent les meilleures capacités de différents modèles pour créer des applications impossibles à réaliser avec un seul modèle.

Démonstrations concrètes : planètes en 3D, contenus scientifiques interactifs, site web de distributeur automatique de robots

Plusieurs exemples publiés simultanément par xiaohu :

Démonstration de planètes en 3D : un système solaire rotatif ou un modèle de planète unique

Contenu scientifique interactif : transformer des connaissances abstraites en visualisations 3D, adaptées à l’éducation

Site web futuriste de distributeur de robots : utiliser la génération d’images avec GPT, puis ajouter la plateforme Tripo 3D pour créer une page web de démonstration

Caractéristique commune de ces exemples : « génération visuelle + conversion interactive » — GPT est responsable de la création visuelle, tandis que Gemini ou d’autres outils 3D se chargent de transformer des images statiques en formes interactives actionnables. Pris séparément, chaque segment ne serait pas nouveau, mais une fois chaînés, l’expérience finale est supérieure à celle de n’importe quel outil unique.

Signification : le workflow inter-modèles devient progressivement un mode de développement dominant

Retombées concrètes pour les développeurs :

Choisir les bons outils est plus important que choisir le modèle le plus puissant — GPT pour la vision, Gemini pour la compréhension multimodale, Claude pour le long context, chacun a ses points forts

Le coût d’intégration des API de modèles baisse, ce qui rend l’enchaînement de plusieurs modèles faisable au niveau de l’implémentation

Les nouvelles applications seront très probablement des « pipelines inter-modèles », plutôt qu’une simple extension du « meilleur modèle unique »

La valeur de ce projet ne réside pas dans une percée technique, mais dans un modèle de conception de workflow

Événements précis à suivre ensuite : si les capacités de génération 3D de Gemini 3.1 Pro seront annoncées officiellement par Google comme fonctionnalité produit lors d’événements ultérieurs, si les workflows inter-modèles obtiendront une prise en charge de modèles par défaut dans des cadres comme LangChain/LlamaIndex, et des exemples concrets d’adoption dans des cas d’usage de commercialisation (comme l’éducation, le e-commerce, le marketing).

Cet article où xiaohu démontre un workflow inter-modèles : génération d’images avec GPT + conversion en contenu interactif 3D avec Gemini 3.1 Pro a été publié en premier sur ABMedia, chaîne d’actualités.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

05-10 06:21

Google lance des tests de recrutement qui permettent aux ingénieurs d’utiliser des outils d’IA

05-10 04:13

Microsoft met en open-source le modèle Phi-Ground 4B, surpassant OpenAI Operator et Claude en précision de clic à l’écran

05-09 05:53

Google exigera l’utilisation de l’IA dans les entretiens de code, et lancera plus tard cette année un recrutement alimenté par Gemini