OpenAI meluncurkan GPT-Realtime-2: menghadirkan penalaran GPT-5 ke dalam voice agent, dan meningkatkan context hingga 128K

ChainNewsAbmedia

OpenAI pada 7 Mei (waktu AS) mengumumkan tiga model suara Realtime baru untuk konferensi pengembang: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper, semuanya tersedia untuk pengembang melalui Realtime API. Pengumuman resmi OpenAI menjelaskan bahwa GPT-Realtime-2 adalah model suara pertama dari OpenAI yang memiliki kemampuan penalaran level GPT-5, dapat melakukan penalaran secara instan dalam percakapan suara, memanggil alat, menangani koreksi, serta mempertahankan ritme percakapan yang natural.

GPT-Realtime-2: context naik dari 32K ke 128K, kekuatan penalaran lima tingkat bisa diatur

Peningkatan inti GPT-Realtime-2:

context window: 32K naik menjadi 128K token

kekuatan penalaran bisa diatur: minimal, low, medium, high, xhigh dalam lima tingkat

Uji Big Bench Audio: penalaran high 96,6%, GPT-Realtime-1.5 generasi sebelumnya 81,4%

Kepatuhan instruksi Audio MultiChallenge: xhigh penalaran 48,5%, generasi sebelumnya 34,7%

Context yang lebih besar dan kekuatan penalaran yang dapat diatur memungkinkan pengembang beralih antara “murah dan cepat” serta “pemikiran mendalam” sesuai kebutuhan—layanan pelanggan sederhana bisa memakai mode minimal untuk mengendalikan biaya, sementara tugas kompleks dialihkan ke xhigh untuk mendapatkan kualitas penalaran level GPT-5.

Sekaligus merilis dua model khusus: Translate untuk terjemahan lintas bahasa, Whisper untuk transkripsi real-time

Pembagian peran tiga model baru kali ini:

GPT-Realtime-Translate: terjemahan suara multibahasa secara real-time, mendukung 70 bahasa input, dan 13 bahasa output

GPT-Realtime-Whisper: transkripsi streaming dengan latensi rendah, mengeluarkan teks sambil berbicara, cocok untuk subtitle real-time, rekaman rapat, dan transkrip kata per kata kelas

GPT-Realtime-2: agent percakapan penuh, bisa bernalar, menggunakan alat, dan menjalankan aksi

Translate dan Whisper adalah spesialisasi model untuk aplikasi suara tertentu—sensitivitas terhadap latensi dan biaya untuk terjemahan serta transkripsi lebih tinggi daripada percakapan umum, sehingga memakai model terpisah dapat mengoptimalkan metrik masing-masing.

Penetapan harga: GPT-Realtime-2 sebesar 32 dolar AS per juta input, 64 dolar AS per juta output

Struktur harga tiga model:

GPT-Realtime-2: 32 dolar AS per juta input suara, cached input 0,40 dolar AS, output 64 dolar AS

GPT-Realtime-Translate: 0,034 dolar AS per menit

GPT-Realtime-Whisper: 0,017 dolar AS per menit

Peristiwa spesifik yang bisa ditelusuri setelahnya: penerapan nyata GPT-Realtime-2 untuk voice agent di lingkungan produksi, tingkat cannibalization terhadap model suara GPT-4o yang sudah ada, serta respons pembanding dari industri seperti Anthropic dan Google.

Artikel ini tentang OpenAI mempromosikan GPT-Realtime-2: membawa penalaran GPT-5 ke voice agent, context naik ke 128K, pertama kali muncul di 链新闻 ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar