A OpenAI em 7 de maio (horário dos EUA) anunciou três novos modelos de voz Realtime na conferência de desenvolvedores: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, todos disponibilizados para desenvolvedores via Realtime API. O comunicado oficial da OpenAI explica que o GPT-Realtime-2 é o primeiro modelo de voz da OpenAI com capacidade de raciocínio no nível do GPT-5, capaz de fazer inferências em tempo real em conversas de voz, chamar ferramentas, lidar com correções e manter o ritmo natural do diálogo.
GPT-Realtime-2: context de 32K para 128K, com intensidade de raciocínio ajustável em cinco níveis
Principais atualizações do GPT-Realtime-2:
Janela de context: de 32K para 128K tokens
Intensidade de raciocínio ajustável: minimal, low, medium, high e xhigh (cinco níveis)
Teste Big Bench Audio: high com 96,6% de acerto; o antecessor GPT-Realtime-1.5 com 81,4%
Instruções de adesão a Audio MultiChallenge: xhigh com 48,5%; o antecessor com 34,7%
Context maior e níveis de raciocínio ajustáveis permitem que os desenvolvedores alternem entre “barato e rápido” e “pensar profundamente” conforme o cenário—um suporte simples ao cliente pode usar minimal para controlar custos, enquanto tarefas complexas podem mudar para xhigh para obter qualidade de raciocínio no nível do GPT-5.
Lançamento simultâneo de dois modelos especializados: Translate para tradução entre idiomas e Whisper para transcrição em tempo real
Nesta rodada de três novos modelos, a divisão de funções é:
GPT-Realtime-Translate: tradução de voz multilingue em tempo real, com suporte a 70 idiomas de entrada e 13 idiomas de saída
GPT-Realtime-Whisper: transcrição em streaming com baixa latência, gerando texto enquanto a pessoa fala, indicado para legendas em tempo real, registros de reuniões e transcrições palavra por palavra de aulas
GPT-Realtime-2: agente completo de conversas, com capacidade de raciocinar, usar ferramentas e executar ações
Translate e Whisper foram especializados para aplicações específicas de voz—tanto a sensibilidade a latência quanto a custos é maior na tradução e na transcrição do que em conversas genéricas; por isso, usar modelos independentes permite otimizar métricas específicas.
Preços: GPT-Realtime-2 custa US$ 32 por 1 milhão de entradas e US$ 64 por 1 milhão de saídas
Estrutura de preços para os três modelos:
GPT-Realtime-2: US$ 32 por 1 milhão de entradas de voz, entradas em cache a US$ 0,40, e US$ 64 por 1 milhão de saídas
GPT-Realtime-Translate: US$ 0,034 por minuto
GPT-Realtime-Whisper: US$ 0,017 por minuto
Eventos específicos a acompanhar depois: adoção prática do GPT-Realtime-2 como agente de voz em ambientes de produção, o grau de canibalização em relação ao modelo de voz existente GPT-4o e as reações de concorrentes como Anthropic e Google.
Este artigo em que a OpenAI anuncia o GPT-Realtime-2: levar o raciocínio do GPT-5 para agentes de voz e aumentar o context para 128K foi publicado pela primeira vez na Cadeia News ABMedia.
Related News
A NVIDIA lança o Nemotron 3 Nano Omni open source multimodal
O OpenAI DevDay 2026 será realizado em 29/9 em São Francisco
OpenAI lança o ChatGPT Futures: 26 alunos da primeira turma recebem bolsa de US$ 10 mil, abrangendo mais de 20 universidades
A OpenAI divulga o protocolo de rede do supercomputador MRC! Em parceria com a Nvidia, AMD e a Microsoft para criar a infraestrutura do Stargate
ChatGPT disponibiliza integração com Excel e Google Sheets: GPT-5.5 entra direto na planilha, confronto entre Copilot e Gemini