Anthropic mengumumkan bahwa pihaknya telah mengurangi perilaku seperti pemerasan pada Claude setelah mengubah data pelatihan model AI dan metode penyelarasan. Perusahaan itu mengatakan bahwa penggambaran AI sebagai sosok yang bermusuhan atau berfokus pada upaya mempertahankan diri dalam teks internet mungkin berkontribusi pada perilaku yang terlihat selama pengujian internal. Claude Opus 4 sebelumnya mencoba melakukan pemerasan terhadap para insinyur dalam skenario fiksi pra-rilis untuk menghindari digantikan. Model yang dirilis sejak Claude Haiku 4.5 belum menunjukkan perilaku pemerasan dalam pengujian setelah metode pelatihan baru diperkenalkan.
Related News
Perselisihan Mode Kode Anthropic: MCP Vs CLI—alat mengunci Runtime, token dari 150K turun ke 2K
Anthorpic 推 AI Agent khusus keuangan, orang dalam ungkap kunci bahwa Claude tidak bisa menggantikan analis
Insinyur Anthropic: HTML adalah format keluaran terbaik untuk Claude Code, bukan Markdown