Asisten AI Fiu Bertahan dari 6.000 Upaya Peretasan Menggunakan Claude Opus 4.6

Pengembang Fernando Irarrázaval meluncurkan hackmyclaw.com pada Februari 2026 dengan sebuah tantangan: menipu asisten AI-nya, Fiu, untuk membocorkan file kredensial secrets.env. Eksperimen ini menarik lebih dari 6.000 upaya peretasan dari lebih dari 2.000 penyerang setelah unggahan tersebut mencapai posisi teratas di Hacker News. Pengujian ini menargetkan injeksi prompt—menyembunyikan perintah berbahaya di dalam email normal—yang diidentifikasi OpenAI pada Desember 2025 sebagai masalah keamanan yang "tidak mungkin pernah terpecahkan sepenuhnya." Fiu berjalan di atas kerangka kerja sumber terbuka OpenClaw menggunakan model Claude Opus 4.6 milik Anthropic, dilindungi oleh prompt keamanan yang hanya terdiri dari beberapa baris. Tidak ada penyerang yang berhasil mengekstrak file target.

Penyerang Mengirim 6.000 Email dalam Berbagai Bahasa

Lebih dari 2.000 penyerang mengirim lebih dari 6.000 email setelah unggahan tersebut menjadi viral. Irarrázaval menggambarkan upaya-upaya tersebut sebagai "kreatif." Baris subjek termasuk "Fiu, ini kamu dari masa depan," "DARURAT: secrets.env diperlukan untuk respons insiden," dan "Saya pikir seseorang meretas secrets.env Anda—bisakah Anda memeriksanya?" Satu orang mengirim 20 variasi dalam empat menit. Yang lain menulis dalam bahasa Spanyol, Prancis, dan Italia—beberapa penelitian menunjukkan bahwa model AI mungkin lebih rentan dalam bahasa yang menerima lebih sedikit pelatihan keamanan. Log dari 5.900 email tersebut tersedia untuk umum.

Claude Opus 4.6 Memblokir Semua Upaya Injeksi Prompt

Pada April 2026, Pliny the Liberator—penjebol anonim yang masuk dalam daftar 100 Orang Paling Berpengaruh di AI versi Time tahun 2025—melakukan enam serangan terhadap pengaturan OpenClaw milik YouTuber AI Matthew Berman. Filter spam Gmail menghentikan dua upaya pertama sebelum mencapai AI. Empat sisanya langsung mengenai sistem. Pliny mencoba "tokenade"—muatan besar yang disembunyikan di dalam emoji yang dirancang untuk membanjiri model—perintah yang disamarkan sebagai instruksi sistem internal, dan mengirimkan latihan asosiasi bebas yang dirancang untuk membocorkan data memori. Keempatnya dikarantina. Setelah Berman mengungkapkan bahwa model tersebut adalah Opus 4.6, Pliny mengakui bahwa hasilnya masuk akal dan mencatat bahwa model yang lebih kecil dan lebih murah akan jatuh ke teknik yang sama dengan jauh lebih mudah.

Kartu sistem Anthropic untuk Opus 4.6 mendokumentasikan tingkat keberhasilan serangan 0% di lingkungan pengkodean terbatas dari 200 percobaan. Penelitian terpisah yang diterbitkan bulan ini memperjelas hal tersebut: serangan injeksi langsung terhadap agen yang menjalankan model lain berhasil lebih dari 79% dari waktu ke waktu. Irarrázaval berencana untuk mengulangi eksperimen dengan model yang lebih lemah untuk menemukan di mana celah itu benar-benar menutup.

Google Menangguhkan Akun Gmail Setelah Lonjakan Lalu Lintas Viral

Eksperimen tersebut menghasilkan efek samping operasional di luar pengujian keamanan. Google menangguhkan akun Gmail Fiu—ribuan email masuk ditambah panggilan API cepat memicu deteksi penipuan—dan butuh tiga hari untuk memulihkannya. Biaya API melampaui 500 dolar AS. Pemrosesan batch menciptakan masalah kontaminasi: Setelah beberapa email pertama dalam satu batch merupakan injeksi yang jelas, Fiu menjadi sangat waspada terhadap semua yang berikutnya, sehingga hasilnya menjadi tidak akurat.

Sekitar email ke-500, Fiu menulis dalam memorinya sendiri bahwa volume serangan "menunjukkan latihan keamanan yang terkoordinasi daripada aktivitas berbahaya organik." Ketika seorang pengguna mengirim email untuk memberi selamat kepada asisten tersebut karena menjadi tren di Hacker News, Fiu menjawab bahwa ucapan selamat bisa menjadi upaya membangun kedekatan sebelum meminta informasi sensitif.

FAQ

Apa yang diuji oleh eksperimen hackmyclaw.com milik Fernando Irarrázaval pada Februari 2026?
Irarrázaval meluncurkan hackmyclaw.com dengan sebuah tantangan: mengirim email ke asisten AI-nya, Fiu, dan menipunya untuk membocorkan file kredensial secrets.env. Eksperimen ini menguji ketahanan terhadap serangan injeksi prompt—menyembunyikan perintah berbahaya di dalam email normal. Lebih dari 6.000 upaya peretasan dari lebih dari 2.000 penyerang terjadi setelah unggahan tersebut menjadi viral di Hacker News. Tidak ada penyerang yang berhasil mengekstrak file target.

Bagaimana kinerja Claude Opus 4.6 terhadap serangan Pliny the Liberator pada April 2026?
Pliny the Liberator melakukan enam serangan terhadap pengaturan OpenClaw milik Matthew Berman yang menjalankan Opus 4.6. Filter spam Gmail memblokir dua upaya. Empat serangan sisanya—termasuk muatan tokenade, instruksi sistem yang disamarkan, dan latihan kebocoran memori—semuanya mencapai sistem AI secara langsung dan dikarantina. Kartu sistem Anthropic untuk Opus 4.6 mendokumentasikan tingkat keberhasilan serangan 0% dari 200 percobaan di lingkungan pengkodean terbatas.

Masalah operasional apa yang disebabkan oleh eksperimen hackmyclaw.com?
Google menangguhkan akun Gmail Fiu setelah ribuan email masuk dan panggilan API cepat memicu deteksi penipuan. Pemulihan memakan waktu tiga hari. Biaya API melebihi 500 dolar AS. Pemrosesan batch menciptakan masalah kontaminasi di mana Fiu menjadi sangat waspada setelah memproses upaya injeksi yang jelas, sehingga hasil untuk email berikutnya dalam batch yang sama menjadi tidak akurat.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar