A Google lança o Gemini Omni Flash: edição de vídeo conversacional, com integração do YouTube Shorts e do Google Flow

2026-05-22 03:11:28

A 19 de Maio, a Google anunciou no Google I/O 2026 o lançamento do primeiro produto da série Gemini Omni — Gemini Omni Flash — e, a 22 de Maio, publicou oficialmente a nota técnica no site oficial. As primeiras plataformas integradas incluem a aplicação Gemini, o Google Flow e o YouTube Shorts.

Funcionalidades principais confirmadas do Gemini Omni Flash

Edição de vídeo conversacional: os utilizadores editam vídeos através de comandos em linguagem natural; cada instrução é executada de forma acumulativa com base na anterior. O modelo mantém consistência de papéis, efeitos físicos fiáveis e memória do cenário, permitindo alterar o fundo, o estilo, o ângulo ou detalhes específicos, sem ser necessário regenerar todo o excerto.

Simulação de motor físico avançado: a compreensão intuitiva da Omni sobre gravidade, dinâmica e dinâmica de fluidos reforça a verosimilhança dos cenários. Permite criar efeitos físicos mais precisos, como cenários dinâmicos com colisões de objectos, escoamento de líquidos e reacções em cadeia.

Geração com entrada multmodal: a Omni pode tratar qualquer combinação de entradas (imagens, texto, excertos de vídeo, áudio) como um único comando, gerando conteúdo de saída unificado. Na fase inicial, as entradas de áudio suportam referências por voz; outros tipos de entrada de áudio serão disponibilizados mais tarde.

Integração de conhecimento e visualização de conceitos: a Omni tira partido do conhecimento da Gemini sobre contextos históricos, científicos e culturais, indo além da simples correspondência de padrões. Consegue, a partir de indicações curtas, gerar conteúdos explicativos; por exemplo, explicar conceitos científicos complexos como o dobrar de proteínas através de animações de barro.

Funcionalidade de avatar digital (Avatar): os utilizadores podem criar uma versão digital com a sua própria voz, gerando vídeos cuja aparência e som são semelhantes aos seus. As funções de edição de áudio e de voz continuam em fase de testes e ainda não estão abertas a todos os utilizadores.

SynthID watermarks: mecanismo de transparência de conteúdo AI já confirmado

Todos os vídeos criados através do Gemini Omni incluem automaticamente uma watermark digital SynthID. Esta é uma tecnologia de watermark invisível desenvolvida pela Google DeepMind; após a inserção, não afecta a qualidade visual do vídeo. Os utilizadores podem verificar se um vídeo foi gerado pela Gemini Omni através de três canais já confirmados: a aplicação Gemini, a Gemini no navegador Chrome e a Google Search. A Google afirma que as ferramentas de verificação do SynthID têm como objectivo ajudar os utilizadores a compreender como o conteúdo na Internet é criado e editado, como parte da sua política responsável de desenvolvimento de IA.

Canais de acesso confirmados e cronograma de lançamento

Disponível já: utilizadores com subscrição paga do Google AI Plus, Pro e Ultra, através da aplicação Gemini e do Google Flow

Ainda esta semana: utilizadores da aplicação YouTube Shorts e YouTube Create, com oferta gratuita

Dentro de algumas semanas: programadores e clientes empresariais, através da Gemini API e da Agent Platform API

Perguntas frequentes

Qual é a diferença técnica entre a “world model” do Gemini Omni Flash e os modelos gerais de geração de vídeo?

A Google posiciona a Gemini Omni como uma “world model”, o que significa que o modelo não só executa um mapeamento generativo de entrada para saída, como também tem capacidade para realizar inferência causal com base numa base de conhecimento do mundo real (incluindo leis físicas, contextos culturais, conhecimento histórico e científico) treinada com a Gemini. Por exemplo, prever o comportamento subsequente de objectos num cenário, aplicar efeitos de um motor físico real e converter descrições linguísticas em conteúdo visual com significado semântico. Isto difere a nível arquitectónico dos objectivos de design de modelos de difusão de vídeo que se baseiam apenas na correspondência de padrões.

A watermark SynthID pode ser removida ou contornada?

A explicação oficial da Google confirma que a watermark SynthID é invisível (não afecta o conteúdo visual do vídeo) e que é embutida na estrutura digital do vídeo, podendo ser verificada através das ferramentas oficiais de validação da Google. A Google não divulgou nas suas documentações oficiais a forma técnica específica de implementação da watermark; para avaliações técnicas independentes sobre a fiabilidade e resistência a adulterações do SynthID, não há registos públicos até ao momento.

Que formatos de entrada o Gemini Omni Flash suporta actualmente e que tipos de saída serão alargados no futuro?

Entradas suportadas já confirmadas: texto, imagens estáticas, excertos de vídeo e áudio por voz (na fase inicial). A Google confirmou no seu blogue oficial que outras categorias de entradas de áudio serão disponibilizadas “em breve” como complemento. Em termos de saída, na versão actual da Omni Flash, a saída está focada em vídeo; a Google indica que no futuro a série Omni suportará modos de saída para imagens e áudio, mas o cronograma exacto de disponibilização ainda não foi confirmado neste anúncio.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

05-22 03:10

A Citi mantém a Alphabet como principal escolha com preço-alvo de 447 dólares após o Google I/O 2026

05-21 08:29

CapCut anuncia parceria com o Google Gemini para permitir edição direta de vídeo na conversa

05-21 07:45

O programador Theo expõe um conflito com a IA da Google: a equipa original da CLI do Gemini foi posta de lado, e a Antigravity copia a interface do Codex

Ripple Prime integra a EDX, unificando o acesso institucional a câmbio à vista e a futuros perpétuos

Market Whisper05-22 02:55

A Zero Network anuncia o encerramento faseado, enquanto a Layer 2 entra na vaga de paragens de protocolos

Market Whisper05-22 02:47

A Alibaba Cloud muda para IA agentica, as receitas de tokens disparam 15x em 5 meses

Oliver Grant05-20 14:44

A divisão de objetos no Google Pics permite imagens de IA precisas e controláveis, e abre para o público AI Pro no verão

Market Whisper05-20 02:52

A Google adiciona um resumo diário e o Spark à aplicação Gemini

Oliver Grant05-20 01:12

Comentar

0/400

Nenhum comentário