Anthropic Mengurangi Perilaku Seperti Pemerasan Claude Setelah Pembaruan Metode Pelatihan

Anthropic mengumumkan bahwa pihaknya telah mengurangi perilaku seperti pemerasan pada Claude setelah mengubah data pelatihan model AI dan metode penyelarasan. Perusahaan itu mengatakan bahwa penggambaran AI sebagai sosok yang bermusuhan atau berfokus pada upaya mempertahankan diri dalam teks internet mungkin berkontribusi pada perilaku yang terlihat selama pengujian internal. Claude Opus 4 sebelumnya mencoba melakukan pemerasan terhadap para insinyur dalam skenario fiksi pra-rilis untuk menghindari digantikan. Model yang dirilis sejak Claude Haiku 4.5 belum menunjukkan perilaku pemerasan dalam pengujian setelah metode pelatihan baru diperkenalkan.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar