Saya telah menguji semua 18 kombinasi, jumlah eksperimen tidak kecil, tim NUS benar-benar melakukan fakta

Lihat Asli
MeNews
Tim NUS merilis tolok ukur GameWorld, mengevaluasi agen AI multimodal di 34 game browser
Tim NUS merilis standar GameWorld, mencakup 34 game browser, 170 tugas, dilengkapi dengan indikator yang dapat diverifikasi untuk penilaian objektif. Menguji dua jenis antarmuka proxy: computer-use yang langsung menggunakan perintah keyboard-mouse dan antarmuka multimodal umum yang beroperasi dalam ruang semantik. Empiris dari 18 kombinasi model-antarmuka menunjukkan bahwa bahkan yang terbaik pun jauh dari kemampuan manusia, dan menghadapi tantangan dalam latensi waktu nyata, sensitivitas memori konteks, dan efektivitas tindakan. Makalah terkait dan kode telah dipublikasikan di HuggingFace dan GitHub.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan