Akurasi GPT-5,4 Turun dari 100% ke 54% pada ARC-AGI Setelah Ringkasan Memori Berulang

Menurut Beating, studi memori Agent terbaru oleh Dylan Zhang, mahasiswa PhD di University of Illinois, menemukan bahwa merangkum pengalaman model secara berulang dapat menurunkan performa, bukan meningkatkannya. Pada tugas ARC-AGI, GPT-5.4 mencapai akurasi 100% pada 19 soal tanpa memori, tetapi setelah beberapa putaran kompresi memori berdasarkan lintasan solusi yang benar, akurasi turun menjadi 54%. Demikian pula, pada tugas belanja WebShop, metode memori AWM meraih skor 0,64 dengan 8 lintasan ahli namun turun menjadi 0,20 dengan 128 lintasan, lalu kembali ke baseline. Riset ini menyarankan masalah berasal dari terlalu banyak peringkasan: setiap langkah abstraksi kehilangan detail spesifik dan menggabungkan aturan yang khusus untuk tugas menjadi panduan generik, yang pada akhirnya menurunkan performa model.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar