A Google anuncia a tradução em tempo real do Gemini 3.5 para voz em mais de 70 línguas

A Google anunciou o Gemini 3.5 Live Translate, um modelo de IA de voz-a-voz que disponibiliza tradução instantânea de voz para voz em mais de 70 línguas. O lançamento alarga a disponibilidade de tradução em tempo real para além dos requisitos anteriores para telemóveis ou auscultadores específicos da Google, oferecendo menor latência do que implementações anteriores. A Google tem procurado a tradução em tempo real há anos, como um dos seus primeiros experimentos de aprendizagem automática; anteriormente, tinha disponibilizado uma tradução em tempo real limitada na app Translate no ano passado, antes do lançamento mais amplo de hoje.

Especificações Técnicas e Família do Modelo do Gemini 3.5 Live Translate

O Gemini 3.5 Live Translate faz parte da família da versão 3.5 lançada no I/O. Antes de hoje, a Google tinha apenas disponibilizado a versão Flash, prevendo-se que um modelo Pro seja lançado nas próximas semanas. O modelo de voz-a-voz é ajustado para detectar e traduzir automaticamente em mais de 70 línguas.

De acordo com a Google, o Gemini 3.5 Live Translate é rápido o suficiente para acompanhar uma conversa normal, ficando apenas alguns segundos atrás do orador, ao mesmo tempo que corresponde à entoação, ao ritmo e ao tom. O modelo produz uma saída de voz que soa mais como o orador original do que como um robot genérico. A Google lançou demonstrações gravadas em condições controladas que mostram estas capacidades.

Lançamento no Ecossistema Google e Acesso dos Utilizadores

O Gemini 3.5 Live Translate está a ser lançado em várias partes do ecossistema Google. O modelo está disponível no Google Meet para tradução de fala durante chamadas de vídeo. Os utilizadores podem aceder às capacidades de tradução sem esperar por períodos prolongados de verificação.

Acesso via API para Programadores e Funcionalidades de Processamento Automático

Os programadores podem começar a construir com uma pré-visualização pública na Gemini Live API ou no AI Studio. O modelo processa a fala continuamente e trata automaticamente todas as entradas multilingues, poupando os programadores a configurar manualmente definições. Também filtra o ruído de fundo em ambientes movimentados.

FAQ

Que línguas é que o Gemini 3.5 Live Translate suporta? O Gemini 3.5 Live Translate suporta mais de 70 línguas com capacidades de deteção e tradução automáticas.

Onde é que os utilizadores podem aceder ao Gemini 3.5 Live Translate? O modelo está a ser lançado em várias partes do ecossistema Google, incluindo o Google Meet para tradução de fala, e os programadores podem aceder através da pré-visualização pública da Gemini Live API ou do AI Studio.

Como é que o Gemini 3.5 Live Translate lida com o processamento de fala? O modelo processa a fala continuamente, trata automaticamente entradas multilingues sem configuração manual e filtra o ruído de fundo em ambientes movimentados, ao mesmo tempo que corresponde à entoação, ao ritmo e ao tom do orador.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário