Menurut Beating, studi memori Agent terbaru oleh Dylan Zhang, mahasiswa PhD di University of Illinois, menemukan bahwa merangkum pengalaman model secara berulang dapat menurunkan performa, bukan meningkatkannya. Pada tugas ARC-AGI, GPT-5.4 mencapai akurasi 100% pada 19 soal tanpa memori, tetapi setelah beberapa putaran kompresi memori berdasarkan lintasan solusi yang benar, akurasi turun menjadi 54%. Demikian pula, pada tugas belanja WebShop, metode memori AWM meraih skor 0,64 dengan 8 lintasan ahli namun turun menjadi 0,20 dengan 128 lintasan, lalu kembali ke baseline. Riset ini menyarankan masalah berasal dari terlalu banyak peringkasan: setiap langkah abstraksi kehilangan detail spesifik dan menggabungkan aturan yang khusus untuk tugas menjadi panduan generik, yang pada akhirnya menurunkan performa model.
Related News
Google: Model bahasa besar digunakan untuk serangan dunia nyata, AI dapat melewati mekanisme keamanan autentikasi dua faktor
Google mengungkap kasus pertama pembuatan zero-day oleh AI: peretas berupaya menghindari 2FA untuk melakukan eksploitasi skala besar
Stanford 推 Agent Island: Model AI di game bergenre Survivor melakukan pengkhianatan strategi dan saling mengeliminasi berdasarkan voting timbal balik