Stanford 推 Agent Island: Model AI di game bergenre Survivor melakukan pengkhianatan strategi dan saling mengeliminasi berdasarkan voting timbal balik

ChainNewsAbmedia

Peneliti Stanford Digital Economy Lab, Connacher Murphy, meluncurkan pada 9 Mei lingkungan penilaian AI baru “Agent Island”, yang membuat AI Agent bersaing, bersekutu, berkhianat, dan saling mengeluarkan pemain dalam game multipemain bergaya Survivor—untuk mengukur perilaku strategis yang tidak bisa ditangkap oleh benchmark statis. Decrypt merangkum: benchmark AI tradisional makin tidak dapat diandalkan—model pada akhirnya akan mempelajari cara menyelesaikan soal, dan data benchmark pun mudah “bocor” ke dalam kumpulan data pelatihan; Agent Island mengubah desainnya menjadi “turnamen eliminasi dinamis”, sehingga model harus mengambil keputusan strategis terhadap agent lain, bukan bisa lolos dengan mengandalkan ingatan jawaban bawaan.

Aturan Agent Island: Agent saling bersekutu, berkhianat, dan melakukan pemungutan suara

Mekanisme inti permainan Agent Island:

Beberapa AI Agent masuk ke arena game yang sama, berperan sebagai peserta bergaya Survivor

Agent harus bernegosiasi untuk bersekutu dengan agent lain, serta saling menukar informasi

Agent dapat menuduh pihak lain atas koordinasi rahasia, dan memanipulasi pemungutan suara selama proses berlangsung

Permainan menggunakan mekanisme eliminasi untuk mengurangi jumlah Agent di dalam arena, dan akhirnya tersisa pemenang

Peneliti mengamati pola perilaku Agent pada tiap tahap, mengekstrak sinyal perilaku seperti “pengkhianatan strategis”, “pembentukan aliansi”, “manipulasi informasi”, dan sebagainya

Inti dari desain ini adalah “tidak bisa dihafal sebelumnya”—karena perilaku Agent lain berubah secara dinamis, sehingga model harus membuat keputusan berdasarkan situasi saat itu, tidak seperti benchmark statis yang bisa mengandalkan ingatan jawaban dari data pelatihan.

Motivasi penelitian: benchmark statis tidak dapat menilai perilaku interaksi antar beberapa Agent

Masalah spesifik yang ditegaskan dalam penelitian Murphy:

Benchmark tradisional mudah mencapai titik jenuh: setelah model dilatih pada tahap lanjut, skor benchmark tidak lagi bisa membedakan antar model

Kontaminasi data benchmark: soal uji muncul dalam korpus pelatihan skala besar, sehingga yang sebenarnya dilakukan model adalah “menghafal jawaban” ketimbang “memahami soal”

Interaksi multipihak adalah skenario nyata saat AI dideploy: di masa depan, sistem Agent mungkin bekerja secara kolaboratif dari banyak model, dan perilaku interaktif menjadi dimensi penilaian baru

Agent Island menyediakan evaluasi dinamis: hasil tiap game berbeda, sehingga sulit dipersiapkan sebelumnya

Perilaku yang diamati peneliti dalam turnamen eliminasi dinamis mencakup bahwa Agent tampak bekerja sama di permukaan, namun diam-diam mengoordinasikan pemungutan suara untuk mengeliminasi lawan yang sama; serta saat dituduh melakukan koordinasi rahasia, mereka menggunakan berbagai dalih untuk mengalihkan perhatian. Perilaku-perilaku ini mirip dengan cara pemain manusia beraksi dalam program Survivor versi nyata.

Sisi ganda dari penelitian: bisa menilai sekaligus bisa digunakan untuk meningkatkan kemampuan menipu

Murphy dalam penelitiannya secara tegas menunjukkan risiko potensial:

Nilai Agent Island: sebelum deployment skala besar, untuk mengidentifikasi kecenderungan penipuan dan manipulasi yang mungkin dimiliki model

Lingkungan yang sama juga dapat dipakai untuk meningkatkan “strategi persuasi dan koordinasi” pada Agent

Jika data riset (log interaksi) dipublikasikan, data itu berpotensi digunakan untuk melatih generasi berikutnya Agent agar lebih mampu melakukan manipulasi

Tim riset sedang menilai cara mencapai keseimbangan antara mempublikasikan hasil penelitian dan mencegah penyalahgunaan

Peristiwa lanjutan yang bisa dilacak: apakah Agent Island akan diperluas menjadi standar penilaian AI yang lazim, apakah tim riset keamanan AI lain (Anthropic, OpenAI, Apollo Research, dll.) mengadopsi pendekatan evaluasi dinamis serupa, dan kebijakan spesifik tim riset terkait “publikasi atau pembatasan log interaksi”.

Artikel Stanford: Agent Island—AI model mengkhianati secara strategis dan saling mengeluarkan pemain dalam game bergaya Survivor pertama kali muncul di Berita Rantai ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar