A OpenAI, a 7 de maio (hora dos EUA), anunciou três novos modelos de voz Realtime numa conferência para programadores: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, todos disponibilizados à comunidade de devs através da Realtime API. O anúncio oficial da OpenAI explica que o GPT-Realtime-2 é o primeiro modelo de voz com capacidade de raciocínio ao nível do GPT-5, conseguindo raciocinar em tempo real em conversas por voz, chamar ferramentas, tratar correções e manter o ritmo natural do diálogo.
GPT-Realtime-2: o context passa de 32K para 128K, com cinco níveis de intensidade de raciocínio ajustável
Principais atualizações do GPT-Realtime-2:
Janela de context: 32K passa para 128K tokens
Intensidade de raciocínio ajustável: minimal, low, medium, high, xhigh, em cinco níveis
Testes Big Bench Audio: raciocínio high com 96,6%, ante 81,4% no anterior GPT-Realtime-1.5
Instruções de aderência ao Audio MultiChallenge: xhigh com 48,5%, face a 34,7% no anterior
Um context maior e a possibilidade de ajustar a intensidade do raciocínio permitem que os programadores alternem entre “barato e rápido” e “pensamento profundo” consoante o cenário—para um serviço de apoio simples, usar o modo minimal para controlar custos, enquanto tarefas complexas são encaminhadas para xhigh para obter qualidade de raciocínio ao nível do GPT-5.
Em simultâneo, foram divulgados dois modelos dedicados: Translate para tradução entre línguas e Whisper para transcrição em tempo real
Nesta ronda, a divisão das três novas versões é a seguinte:
GPT-Realtime-Translate: tradução áudio multilingue em tempo real, com suporte a 70 línguas de entrada e 13 línguas de saída
GPT-Realtime-Whisper: transcrição em streaming com baixa latência, gerando texto à medida que a fala ocorre, indicado para legendas em tempo real, registos de reuniões e transcrições palavra a palavra de aulas
GPT-Realtime-2: agente completo para conversação, com capacidade de raciocínio, uso de ferramentas e execução de ações
Translate e Whisper são especializações de modelos orientadas para aplicações de voz específicas—com maior sensibilidade a latência e custos do que em conversas genéricas, a utilização de modelos separados pode otimizar os respetivos indicadores.
Preços: GPT-Realtime-2 custa 32 dólares por milhão de entradas e 64 dólares por milhão de saídas
Estrutura de preços dos três modelos:
GPT-Realtime-2: 32 dólares por milhão de entradas de voz, 0,40 dólares para entradas cached e 64 dólares de saída
GPT-Realtime-Translate: 0,034 dólares por minuto
GPT-Realtime-Whisper: 0,017 dólares por minuto
Eventos concretos a acompanhar mais tarde: a utilização efetiva do GPT-Realtime-2 em agentes de voz no ambiente de produção, o nível de cannibalization face aos modelos de voz GPT-4o existentes e as reações de concorrentes como a Anthropic e a Google.
Esta publicação sobre a OpenAI a lançar o GPT-Realtime-2: levar o raciocínio do GPT-5 para um agente de voz e aumentar o context para 128K surgiu pela primeira vez em Cadeia de Notícias ABMedia.
Related News
A NVIDIA lançou o Nemotron 3 Nano Omni, uma solução de multimodalidade de código aberto
A OpenAI DevDay 2026 terá lugar a 29/9, em São Francisco
A OpenAI lança o ChatGPT Futures: 26 alunos da primeira edição recebem 10.000 dólares de apoio, abrangendo mais de 20 universidades
A OpenAI publica o protocolo de rede do supercomputador MRC! Em parceria com a Nvidia, a AMD e a Microsoft para criar a infraestrutura base do Stargate
ChatGPT disponibiliza ficheiros Excel e Google Sheets: GPT-5,5 inicia sessão diretamente na folha de cálculo, confronto entre Copilot e Gemini