OpenAI lance GPT-Realtime-2 : intègre l’inférence de GPT-5 dans les agents vocaux et fait passer le contexte à 128K

OpenAI a annoncé le 7 mai (heure américaine) lors d’une conférence pour développeurs trois nouveaux modèles de voix Realtime : GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper, tous disponibles pour les développeurs via l’API Realtime. L’annonce officielle d’OpenAI explique que GPT-Realtime-2 est le premier modèle vocal d’OpenAI doté de capacités de raisonnement de niveau GPT-5, capable de raisonner en temps réel dans des conversations vocales, d’appeler des outils, de traiter des corrections, et de maintenir un rythme naturel des échanges.

GPT-Realtime-2 : le context passe de 32K à 128K, et l’intensité de raisonnement est réglable en cinq niveaux

Les principales améliorations de GPT-Realtime-2 :

fenêtre de context : de 32K à 128K tokens

intensité de raisonnement réglable : minimal, low, medium, high, xhigh, soit cinq niveaux

test Big Bench Audio : 96,6 % en mode high, contre 81,4 % pour l’ancien GPT-Realtime-1.5

respect des instructions Audio MultiChallenge : 48,5 % en xhigh, contre 34,7 % pour l’ancien modèle

Un context plus large et une intensité de raisonnement réglable permettent aux développeurs de basculer selon les cas d’usage entre le mode « bon marché et rapide » et le « raisonnement approfondi » : un service client simple peut limiter les coûts avec le mode minimal, tandis que des tâches complexes peuvent être basculées en xhigh pour obtenir une qualité de raisonnement de niveau GPT-5.

Publication en parallèle de deux modèles spécialisés : Translate pour la traduction multilingue, Whisper pour la transcription en temps réel

Dans cette série de trois nouveaux modèles, chaque modèle a un rôle distinct :

GPT-Realtime-Translate : traduction vocale multilingue en temps réel, prise en charge de 70 langues en entrée et 13 langues en sortie

GPT-Realtime-Whisper : transcription en streaming à faible latence, du texte généré au fil de la parole, adapté aux sous-titres en direct, aux comptes rendus de réunion, et aux transcriptions mot à mot de cours

GPT-Realtime-2 : agent conversationnel complet, capable de raisonner, d’utiliser des outils et d’exécuter des actions

Translate et Whisper sont des modèles spécialisés pour des cas d’usage vocaux précis : les exigences de latence et de coûts pour la traduction et la transcription sont plus sensibles que pour un dialogue général ; utiliser des modèles distincts permet d’optimiser les indicateurs spécifiques à chaque tâche.

Tarification : GPT-Realtime-2 à 32 dollars par million d’entrées, et 64 dollars par million de sorties

Structure des prix des trois modèles :

GPT-Realtime-2 : 32 dollars par million d’entrées vocales, 0,40 dollar pour les entrées cached, et 64 dollars par million de sorties

GPT-Realtime-Translate : 0,034 dollar par minute

GPT-Realtime-Whisper : 0,017 dollar par minute

Événements concrets à suivre par la suite : le taux d’adoption réel de GPT-Realtime-2 pour des agents vocaux en environnement de production, le niveau de cannibalisation par rapport aux modèles vocaux existants de GPT-4o, ainsi que les réactions des concurrents comme Anthropic et Google.

Cet article sur OpenAI qui lance GPT-Realtime-2 : apporter le raisonnement de niveau GPT-5 dans les agents vocaux, et porter le context à 128K, apparaît pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire