Microsoft Membuka Sumber Model Phi-Ground 4B, Mengungguli OpenAI Operator dan Claude dalam Akurasi Klik Layar

Menurut Beating, Microsoft baru-baru ini merilis kode sumber terbuka keluarga model Phi-Ground, yang dirancang untuk memecahkan masalah ke mana AI harus mengklik pada layar komputer. Versi 4 miliar parameter, dipasangkan dengan model bahasa yang lebih besar untuk perencanaan instruksi, melampaui akurasi klik OpenAI Operator dan Claude Computer Use dalam benchmark Showdown serta menempati peringkat pertama di antara semua model dengan parameter di bawah 100 miliar pada lima evaluasi, termasuk ScreenSpot-Pro.

Tim melatih menggunakan lebih dari 40 juta sampel data dan menemukan bahwa tiga teknik pelatihan umum yang digunakan dalam paper akademik menjadi tidak efektif saat diskalakan. Pendekatan utamanya terbukti sederhana: keluarkan koordinat sebagai bilangan biasa, seperti “523, 417.” Penelitian sebelumnya menciptakan kosakata posisi khusus untuk koordinat, tetapi itu gagal untuk diskalakan. Tim juga menemukan bahwa menempatkan instruksi teks sebelum gambar meningkatkan kinerja, karena model dapat mengidentifikasi target saat memproses piksel. Selain itu, metode reinforcement learning seperti DPO meningkatkan akurasi bahkan setelah fine-tuning.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar