OpenAI a annoncé le 7 mai (heure américaine) lors d’une conférence pour développeurs trois nouveaux modèles de voix Realtime : GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper, tous disponibles pour les développeurs via l’API Realtime. L’annonce officielle d’OpenAI explique que GPT-Realtime-2 est le premier modèle vocal d’OpenAI doté de capacités de raisonnement de niveau GPT-5, capable de raisonner en temps réel dans des conversations vocales, d’appeler des outils, de traiter des corrections, et de maintenir un rythme naturel des échanges.
GPT-Realtime-2 : le context passe de 32K à 128K, et l’intensité de raisonnement est réglable en cinq niveaux
Les principales améliorations de GPT-Realtime-2 :
fenêtre de context : de 32K à 128K tokens
intensité de raisonnement réglable : minimal, low, medium, high, xhigh, soit cinq niveaux
test Big Bench Audio : 96,6 % en mode high, contre 81,4 % pour l’ancien GPT-Realtime-1.5
respect des instructions Audio MultiChallenge : 48,5 % en xhigh, contre 34,7 % pour l’ancien modèle
Un context plus large et une intensité de raisonnement réglable permettent aux développeurs de basculer selon les cas d’usage entre le mode « bon marché et rapide » et le « raisonnement approfondi » : un service client simple peut limiter les coûts avec le mode minimal, tandis que des tâches complexes peuvent être basculées en xhigh pour obtenir une qualité de raisonnement de niveau GPT-5.
Publication en parallèle de deux modèles spécialisés : Translate pour la traduction multilingue, Whisper pour la transcription en temps réel
Dans cette série de trois nouveaux modèles, chaque modèle a un rôle distinct :
GPT-Realtime-Translate : traduction vocale multilingue en temps réel, prise en charge de 70 langues en entrée et 13 langues en sortie
GPT-Realtime-Whisper : transcription en streaming à faible latence, du texte généré au fil de la parole, adapté aux sous-titres en direct, aux comptes rendus de réunion, et aux transcriptions mot à mot de cours
GPT-Realtime-2 : agent conversationnel complet, capable de raisonner, d’utiliser des outils et d’exécuter des actions
Translate et Whisper sont des modèles spécialisés pour des cas d’usage vocaux précis : les exigences de latence et de coûts pour la traduction et la transcription sont plus sensibles que pour un dialogue général ; utiliser des modèles distincts permet d’optimiser les indicateurs spécifiques à chaque tâche.
Tarification : GPT-Realtime-2 à 32 dollars par million d’entrées, et 64 dollars par million de sorties
Structure des prix des trois modèles :
GPT-Realtime-2 : 32 dollars par million d’entrées vocales, 0,40 dollar pour les entrées cached, et 64 dollars par million de sorties
GPT-Realtime-Translate : 0,034 dollar par minute
GPT-Realtime-Whisper : 0,017 dollar par minute
Événements concrets à suivre par la suite : le taux d’adoption réel de GPT-Realtime-2 pour des agents vocaux en environnement de production, le niveau de cannibalisation par rapport aux modèles vocaux existants de GPT-4o, ainsi que les réactions des concurrents comme Anthropic et Google.
Cet article sur OpenAI qui lance GPT-Realtime-2 : apporter le raisonnement de niveau GPT-5 dans les agents vocaux, et porter le context à 128K, apparaît pour la première fois sur Chaîne News ABMedia.
Related News
NVIDIA lance Nemotron 3 Nano Omni open source, un modèle multimodal
OpenAI DevDay 2026 aura lieu le 29/09 à San Francisco
OpenAI présente ChatGPT Futures : 26 étudiants de la première promotion reçoivent une subvention de 10 000 dollars, dans plus de 20 universités
OpenAI dévoile le protocole de réseau supercalculateur MRC ! En partenariat avec Nvidia, AMD et Microsoft pour créer l’infrastructure de Stargate
ChatGPT lance Excel et Google Sheets : GPT-5.5 se connecte directement au tableur, affrontement tripartite entre Copilot et Gemini