OpenAI pada 7 Mei (waktu AS) mengumumkan tiga model suara Realtime baru untuk konferensi pengembang: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper, semuanya tersedia untuk pengembang melalui Realtime API. Pengumuman resmi OpenAI menjelaskan bahwa GPT-Realtime-2 adalah model suara pertama dari OpenAI yang memiliki kemampuan penalaran level GPT-5, dapat melakukan penalaran secara instan dalam percakapan suara, memanggil alat, menangani koreksi, serta mempertahankan ritme percakapan yang natural.
GPT-Realtime-2: context naik dari 32K ke 128K, kekuatan penalaran lima tingkat bisa diatur
Peningkatan inti GPT-Realtime-2:
context window: 32K naik menjadi 128K token
kekuatan penalaran bisa diatur: minimal, low, medium, high, xhigh dalam lima tingkat
Uji Big Bench Audio: penalaran high 96,6%, GPT-Realtime-1.5 generasi sebelumnya 81,4%
Kepatuhan instruksi Audio MultiChallenge: xhigh penalaran 48,5%, generasi sebelumnya 34,7%
Context yang lebih besar dan kekuatan penalaran yang dapat diatur memungkinkan pengembang beralih antara “murah dan cepat” serta “pemikiran mendalam” sesuai kebutuhan—layanan pelanggan sederhana bisa memakai mode minimal untuk mengendalikan biaya, sementara tugas kompleks dialihkan ke xhigh untuk mendapatkan kualitas penalaran level GPT-5.
Sekaligus merilis dua model khusus: Translate untuk terjemahan lintas bahasa, Whisper untuk transkripsi real-time
Pembagian peran tiga model baru kali ini:
GPT-Realtime-Translate: terjemahan suara multibahasa secara real-time, mendukung 70 bahasa input, dan 13 bahasa output
GPT-Realtime-Whisper: transkripsi streaming dengan latensi rendah, mengeluarkan teks sambil berbicara, cocok untuk subtitle real-time, rekaman rapat, dan transkrip kata per kata kelas
GPT-Realtime-2: agent percakapan penuh, bisa bernalar, menggunakan alat, dan menjalankan aksi
Translate dan Whisper adalah spesialisasi model untuk aplikasi suara tertentu—sensitivitas terhadap latensi dan biaya untuk terjemahan serta transkripsi lebih tinggi daripada percakapan umum, sehingga memakai model terpisah dapat mengoptimalkan metrik masing-masing.
Penetapan harga: GPT-Realtime-2 sebesar 32 dolar AS per juta input, 64 dolar AS per juta output
Struktur harga tiga model:
GPT-Realtime-2: 32 dolar AS per juta input suara, cached input 0,40 dolar AS, output 64 dolar AS
GPT-Realtime-Translate: 0,034 dolar AS per menit
GPT-Realtime-Whisper: 0,017 dolar AS per menit
Peristiwa spesifik yang bisa ditelusuri setelahnya: penerapan nyata GPT-Realtime-2 untuk voice agent di lingkungan produksi, tingkat cannibalization terhadap model suara GPT-4o yang sudah ada, serta respons pembanding dari industri seperti Anthropic dan Google.
Artikel ini tentang OpenAI mempromosikan GPT-Realtime-2: membawa penalaran GPT-5 ke voice agent, context naik ke 128K, pertama kali muncul di 链新闻 ABMedia.
Related News
NVIDIA meluncurkan Nemotron 3 Nano Omni, multimodal sumber terbuka
OpenAI DevDay 2026 akan diadakan pada 29/9 di San Francisco
OpenAI luncurkan ChatGPT Futures: 26 mahasiswa angkatan pertama menerima beasiswa 10.000 dolar AS, mencakup lebih dari 20 universitas
OpenAI merilis protokol jaringan superkomputer MRC! Berkolaborasi dengan NVIDIA, AMD, dan Microsoft untuk membangun infrastruktur Stargate
ChatGPT Hadirkan Excel dan Google Sheets: GPT-5,5 Langsung Masuk ke Spreadsheet, Copilot dan Gemini Saling Bersaing