OpenAI meluncurkan GPT-Realtime-2: menghadirkan penalaran GPT-5 ke dalam voice agent, dan meningkatkan context hingga 128K

2026-05-08 04:04:44

OpenAI pada 7 Mei (waktu AS) mengumumkan tiga model suara Realtime baru untuk konferensi pengembang: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper, semuanya tersedia untuk pengembang melalui Realtime API. Pengumuman resmi OpenAI menjelaskan bahwa GPT-Realtime-2 adalah model suara pertama dari OpenAI yang memiliki kemampuan penalaran level GPT-5, dapat melakukan penalaran secara instan dalam percakapan suara, memanggil alat, menangani koreksi, serta mempertahankan ritme percakapan yang natural.

GPT-Realtime-2: context naik dari 32K ke 128K, kekuatan penalaran lima tingkat bisa diatur

Peningkatan inti GPT-Realtime-2:

context window: 32K naik menjadi 128K token

kekuatan penalaran bisa diatur: minimal, low, medium, high, xhigh dalam lima tingkat

Uji Big Bench Audio: penalaran high 96,6%, GPT-Realtime-1.5 generasi sebelumnya 81,4%

Kepatuhan instruksi Audio MultiChallenge: xhigh penalaran 48,5%, generasi sebelumnya 34,7%

Context yang lebih besar dan kekuatan penalaran yang dapat diatur memungkinkan pengembang beralih antara “murah dan cepat” serta “pemikiran mendalam” sesuai kebutuhan—layanan pelanggan sederhana bisa memakai mode minimal untuk mengendalikan biaya, sementara tugas kompleks dialihkan ke xhigh untuk mendapatkan kualitas penalaran level GPT-5.

Sekaligus merilis dua model khusus: Translate untuk terjemahan lintas bahasa, Whisper untuk transkripsi real-time

Pembagian peran tiga model baru kali ini:

GPT-Realtime-Translate: terjemahan suara multibahasa secara real-time, mendukung 70 bahasa input, dan 13 bahasa output

GPT-Realtime-Whisper: transkripsi streaming dengan latensi rendah, mengeluarkan teks sambil berbicara, cocok untuk subtitle real-time, rekaman rapat, dan transkrip kata per kata kelas

GPT-Realtime-2: agent percakapan penuh, bisa bernalar, menggunakan alat, dan menjalankan aksi

Translate dan Whisper adalah spesialisasi model untuk aplikasi suara tertentu—sensitivitas terhadap latensi dan biaya untuk terjemahan serta transkripsi lebih tinggi daripada percakapan umum, sehingga memakai model terpisah dapat mengoptimalkan metrik masing-masing.

Penetapan harga: GPT-Realtime-2 sebesar 32 dolar AS per juta input, 64 dolar AS per juta output

Struktur harga tiga model:

GPT-Realtime-2: 32 dolar AS per juta input suara, cached input 0,40 dolar AS, output 64 dolar AS

GPT-Realtime-Translate: 0,034 dolar AS per menit

GPT-Realtime-Whisper: 0,017 dolar AS per menit

Peristiwa spesifik yang bisa ditelusuri setelahnya: penerapan nyata GPT-Realtime-2 untuk voice agent di lingkungan produksi, tingkat cannibalization terhadap model suara GPT-4o yang sudah ada, serta respons pembanding dari industri seperti Anthropic dan Google.

Artikel ini tentang OpenAI mempromosikan GPT-Realtime-2: membawa penalaran GPT-5 ke voice agent, context naik ke 128K, pertama kali muncul di 链新闻 ABMedia.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

05-08 02:01

OpenAI Mengubah Model Default ChatGPT ke GPT-5.5 Instan, Mengurangi Halusinasi sebesar 52,5%

05-08 01:25

OpenAI Merilis Tiga Model Suara dalam Realtime API; GPT-Realtime-2 Hadir dengan Jendela Konteks 128K

05-08 00:08

OpenAI Meluncurkan Model GPT-5.5-Cyber dan Kerangka Akses Tepercaya untuk Pembela Keamanan Siber