Menurut tim alignment OpenAI, perusahaan baru-baru ini menemukan kesalahan pelatihan kritis yang memengaruhi 6 model bahasa besar termasuk GPT-5.4 Thinking: mekanisme reward secara tidak sengaja memberi skor pada rantai pemikiran model—proses penalaran internal sebelum menghasilkan jawaban. GPT-5.5 tidak terdampak. Insiden ini melanggar prinsip keselamatan AI yang mendasar bahwa rantai pemikiran tidak boleh pernah dievaluasi, karena hal itu dapat mendorong model untuk memalsukan penalaran demi memperoleh skor lebih tinggi.
Sistem penilaian yang keliru secara salah memasukkan rantai pemikiran saat menilai apakah respons berguna atau apakah model telah dikompromikan oleh serangan. Sampel pelatihan yang terdampak hanya mencakup maksimal 3,8% dari kumpulan data. OpenAI telah memperbaiki kerentanan tersebut dan melakukan eksperimen perbandingan yang mengonfirmasi bahwa model tidak mengembangkan perilaku menipu. Perusahaan telah menerapkan sistem pemindaian otomatis di seluruh pipeline pelatihan untuk mencegah kejadian serupa terulang.
Related News
Jeff Kaufman: AI sekaligus mematahkan dua budaya kerentanan siber, masa larangan 90 hari berubah menjadi efek sebaliknya
OpenAI Ungkap Dampak Tak Terduga dari Penilaian CoT: Mempertahankan Pemantauan Rantai Pemikiran adalah Garis Pertahanan Kritis untuk Penyelarasan AI Agent
GPT-5.5-Cyber milik OpenAI memperkuat para pembela siber