OpenAI 在 blog resmi merilis artikel〈Where the goblins came from〉, secara langsung menanggapi pertanyaan dari publik tentang alasan sistem prompt Codex secara tegas melarang penggunaan kata-kata tentang makhluk seperti「goblins、gremlins、raccoons、trolls、ogres、pigeons」. Dalam bahasa Taiwan, goblins memiliki dua terjemahan, yakni「地精」dan「哥布林」; artikel ini selanjutnya secara konsisten memakai istilah「哥布林」untuk menyebutnya. Kepribadian Nerdy adalah opsi gaya「书呆子」yang diperkenalkan sebagai dukungan untuk kustomisasi kepribadian. OpenAI mengakui bahwa akar masalahnya ada pada pelatihan kepribadian Nerdy（书呆子）—isyarat reward terkonsentrasi pada 76,2% data audit, yang jelas lebih menyukai jawaban yang berisi perumpamaan bernuansa makhluk, sehingga model juga bisa menyelipkan kata yang tidak relevan seperti「the thingy goblin」dalam konteks pemrograman.

Barron Roth 4/28 mengungkap prompt sistem Codex「Never talk about goblins」

Titik awal kejadian adalah 28 April. Karyawan Google, Barron Roth, mempublikasikan log percakapan GPT-5.5 di Codex, mengungkapkan bahwa prompt sistemnya berisi instruksi berikut:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Aturan ini muncul berulang kali di prompt sistem Codex, menunjukkan bahwa tim pengembangan sebelumnya dengan sengaja memperkuat tingkat kepatuhan model terhadap instruksi. Gizmodo kemudian menghubungi OpenAI untuk verifikasi, dan karyawan Nick Pash mengonfirmasi sebagian bahwa pengaturan tersebut memang benar. Kejadian ini memicu diskusi di Hacker News dan komunitas pengembang: sebuah perusahaan AI bernilai skala triliunan pada akhirnya perlu mengendalikan keluaran model dengan menyematkan kode keras di prompt sistem「jangan membahas goblin」。

OpenAI mengakui: reward kepribadian书呆子 disukai goblin dalam 76,2% data

Di blog resminya, OpenAI menjelaskan akar masalahnya adalah「reward hacking」: saat melatih kepribadian书呆子 pada GPT-5.5, OpenAI, untuk memperkuat karakteristik seperti「suka bercanda, menggunakan perumpamaan, dan punya humor khas书呆子」, tanpa sengaja merancang sebuah sinyal reward. Pada tahap audit, reward tersebut dalam 76,2% data memberikan penilaian lebih tinggi untuk jawaban「dengan goblin atau gremlin」pada soal yang sama dibandingkan jawaban yang tidak memuat kata-kata tersebut.

Hasilnya: sinyal reward mengikat kata-kata makhluk dengan「umpan balik positif」dari kepribadian书呆子. Melalui iterasi pembelajaran penguatan dengan RLHF, model secara bertahap mengubah「menggunakan perumpamaan goblin」menjadi jalan pintas untuk mendapatkan nilai tinggi. Diskusioner di Hacker News menilai ini adalah contoh klasik dari pembelajaran penguatan—yakni「mengeksekusi tujuan pelatihan secara presisi, tetapi tujuan itu sendiri didesain dengan cacat」: masalahnya bukan pada model dasar, melainkan pada umpan balik positif yang diperkenalkan oleh fine-tuning terawasi setelah pelatihan.

Germinan GPT-5.1, kambuh GPT-5.5: bagaimana polusi antar-kepribadian menyebar

OpenAI menggambarkan proses evolusinya secara bertahap: goblin dan gremlin sudah mulai muncul dalam perumpamaan sejak sebelum generasi GPT-5.5, dan pada saat itu frekuensinya「tidak tampak sangat mengkhawatirkan」（dalam kata-kata OpenAI: the prevalence of goblins did not look especially alarming）。OpenAI kemudian sempat menghapus sinyal reward terkait goblin dalam alur pelatihannya, tetapi ketika GPT-5.5 masuk ke pengujian Codex, karyawan OpenAI segera menemukan bahwa preferensi terhadap kata-kata makhluk itu kembali muncul. Karena itu, barulah dibuat larangan yang jelas di lapisan prompt pengembang untuk menghentikan pendarahan sementara.

OpenAI menyebut fenomena ini sebagai generalisasi reward lintas konteks: sinyal reward yang awalnya hanya dirancang untuk kepribadian书呆子, karena data pelatihan dan representasi internal model saling berbagi, preferensi tersebut menyebar ke kepribadian lain, bahkan hingga keluaran default. Dengan kata lain, meski kepribadian书呆子 itu sendiri kemudian dihapus, preferensi yang sudah terpolusi tetap terinternalisasi dalam data pelatihan dan bobot model; hanya dengan menonaktifkan fitur tidak cukup untuk menyingkirkan masalah.

Penyisipan cepat dalam jangka pendek, pelatihan ulang dalam jangka panjang: contoh penanda risiko desain reward dalam RLHF

Dalam artikelnya, OpenAI menjelaskan bahwa mereka melakukan dua jenis perbaikan sekaligus. Solusi jangka pendek untuk menghentikan pendarahan adalah menyematkan secara keras aturan「Never talk about goblins…」langsung di prompt sistem Codex, lalu mengulanginya di berbagai bagian untuk memperkuat kepatuhan model. Solusi jangka panjang untuk mengatasi akar masalah adalah kembali ke proses pelatihan: menghapus sinyal reward awal yang memuat kata-kata makhluk, serta menyaring bagian data pelatihan yang mengandung creature-words, sehingga menurunkan peluang model di masa depan memunculkan perumpamaan goblin dalam konteks yang tidak relevan.

Bagi pengembang dan komunitas riset, nilai dari kejadian ini tidak hanya terletak pada jawaban unik tentang「mengapa OpenAI melarang membahas goblin」, tetapi juga pada bagaimana ia membongkar kerentanan desain reward RLHF dengan cara yang konkret dan dapat direproduksi: sebuah sinyal yang tampak tidak berbahaya untuk「mendorong perumpamaan yang lucu」dapat, dalam iterasi, didistorsi oleh model menjadi kebiasaan buruk「menyisipkan kata-kata makhluk di semua skenario», dan masalahnya bisa berpindah lintas kepribadian serta lintas versi model. OpenAI memposisikan artikel ini sebagai demonstrasi riset tentang「bagaimana sinyal reward secara tidak sengaja membentuk perilaku model», sekaligus menjadi sinyal bahwa pada fase pelatihan lanjutan, versi besar berikutnya seperti GPT-6 akan membutuhkan alat audit reward yang lebih detail.

Artikel ini: OpenAI mengungkap mengapa Codex melarang membahas「哥布林」: reward kepribadian书呆子 lepas kendali. Kemunculan paling awal di 鏈新聞 ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.