Xiaohu demonstra um fluxo de trabalho entre modelos: criação de imagens com GPT + conteúdo 3D interativo convertido a partir do Gemini 3.1 Pro

2026-05-10 09:16:05

O observador de IA chinês xiaohu partilhou a 10 de maio um exemplo de um fluxo de trabalho que combina GPT e Gemini 3.1 Pro: primeiro, usar GPT para gerar imagens e, depois, usar Gemini 3.1 Pro para transformar as imagens em conteúdo 3D interativo, que pode transformar qualquer tema de conhecimento em aplicações científicas rotativas e operacionais. Os exemplos mostrados no tweet de xiaohu incluem demonstrações de planetas 3D e modelos científicos interativos, entre outros — uma prática concreta de um “fluxo de trabalho multi-modelo” (multi-model workflow).

Estrutura do fluxo de trabalho: GPT a gerar imagens → Gemini 3.1 Pro a torná-las em 3D

A estrutura de todo o fluxo de trabalho é composta por duas fases:

Fase um: usar GPT (GPT-image-1 ou a geração de imagens integrada no ChatGPT) para produzir imagens base do tema e fornecer suporte visual

Fase dois: inserir a imagem no Gemini 3.1 Pro, para o Gemini transformar a imagem 2D em conteúdo 3D interativo

Formato de saída: objectos 3D rotativos, ampliáveis e interactivos dentro do navegador

Cenários de aplicação: educação científica, demonstração de produtos, conteúdos de interacção com conhecimento

“Fluxo de trabalho multi-modelo” é uma das principais tendências na camada de aplicações de IA de 2026 — já não é o caso de um único modelo ser uma solução para tudo. Os programadores ligam as partes mais fortes de diferentes modelos e criam aplicações que um único modelo não conseguiria fazer.

Demonstração concreta: planetas 3D, conteúdos científicos interactivos, sites de venda de robôs

Vários exemplos publicados em simultâneo por xiaohu:

Demonstração de planetas 3D: um sistema solar rotativo ou um modelo de planeta único

Conteúdo científico interactivo: transformar conhecimentos abstractos em visualizações 3D, adequado para fins educativos

Site futuro de máquinas de venda por robôs: usar imagens geradas pelo GPT e adicionar a plataforma Tripo 3D para criar páginas web de carácter demonstrativo

As características comuns destes exemplos são “geração visual + transformação interactiva”: o GPT é responsável pela criatividade e visualização, enquanto o Gemini ou outras ferramentas 3D são responsáveis por transformar imagens estáticas em formas interactivas e operacionais. Isoladamente, cada passo não é novidade, mas, em conjunto, a experiência final é superior à de qualquer ferramenta única.

Significado: fluxos de trabalho multi-modelo estão a tornar-se numa abordagem de desenvolvimento dominante

Implicações concretas para os programadores:

Escolher as ferramentas certas é mais importante do que escolher o modelo mais forte — o GPT é forte em visual, o Gemini em compreensão multimodal, o Claude em contextos longos; cada um tem os seus pontos fortes

Os custos de integração das APIs dos modelos baixam, e ligar vários modelos ao nível da implementação torna-se viável

Aplicações novas são provavelmente “pipelines multi-modelo”, e não uma extensão do “melhor modelo único”

O valor desta proposta não está numa ruptura tecnológica, mas num modelo de design de fluxo de trabalho

Eventos concretos a acompanhar no futuro: se a capacidade de geração 3D do Gemini 3.1 Pro for anunciada oficialmente pela Google como funcionalidade de produto em actividades subsequentes; se o fluxo de trabalho multi-modelo receber suporte de templates predefinidos em frameworks como LangChain/LlamaIndex; e exemplos concretos de adopção em casos de comercialização (como educação, comércio electrónico e marketing).

Este artigo em que xiaohu demonstra um fluxo de trabalho multi-modelo (GPT a gerar imagens + Gemini 3.1 Pro a transformar em conteúdo 3D interativo) apareceu pela primeira vez em 鏈新聞 ABMedia.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

05-10 06:21

A Google prepara exames de contratação que permitem aos engenheiros usar ferramentas de IA

05-10 04:13

A Microsoft disponibiliza em open-source o modelo Phi-Ground 4B, com desempenho superior ao do OpenAI Operator e do Claude na precisão de cliques no ecrã

05-09 05:53

A Google vai exigir o uso de IA em entrevistas de código, lançando contratações alimentadas por Gemini mais tarde este ano

Disputa do Anthropic Code Mode: MCP vs CLI — as ferramentas travam o Runtime e os tokens caem de 150 mil para 2 mil

ChainNewsAbmedia05-10 09:15

Garry Tan: Eu agora dou muito poucos prompts para IA! O CEO da YC analisa “fluxos de trabalho de IA com capitalização”

ChainNewsAbmedia05-10 06:44

Anthorpic lança um AI Agent especializado em finanças, exclusivo para empresas — pessoas da indústria revelam o motivo de que o Claude não consegue substituir os analistas

ChainNewsAbmedia05-09 17:13

A cadeia ecológica de computação espacial da NVIDIA chega ao terreno, com a Space-1 Vera Rubin a enviar capacidades de IA de nível de centro de dados para o espaço

ChainNewsAbmedia05-09 16:13

Os GPT-5.5-Cyber da OpenAI armam os defensores cibernéticos

Cryptonews05-08 18:42

Comentar

0/400

Nenhum comentário