Sistem Penghargaan OpenAI Secara Tak Sengaja Memberi Skor Thinking Chains pada 6 Model, Termasuk GPT-5.4

Menurut tim alignment OpenAI, perusahaan baru-baru ini menemukan kesalahan pelatihan kritis yang memengaruhi 6 model bahasa besar termasuk GPT-5.4 Thinking: mekanisme reward secara tidak sengaja memberi skor pada rantai pemikiran model—proses penalaran internal sebelum menghasilkan jawaban. GPT-5.5 tidak terdampak. Insiden ini melanggar prinsip keselamatan AI yang mendasar bahwa rantai pemikiran tidak boleh pernah dievaluasi, karena hal itu dapat mendorong model untuk memalsukan penalaran demi memperoleh skor lebih tinggi.

Sistem penilaian yang keliru secara salah memasukkan rantai pemikiran saat menilai apakah respons berguna atau apakah model telah dikompromikan oleh serangan. Sampel pelatihan yang terdampak hanya mencakup maksimal 3,8% dari kumpulan data. OpenAI telah memperbaiki kerentanan tersebut dan melakukan eksperimen perbandingan yang mengonfirmasi bahwa model tidak mengembangkan perilaku menipu. Perusahaan telah menerapkan sistem pemindaian otomatis di seluruh pipeline pelatihan untuk mencegah kejadian serupa terulang.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar