Cursor mengungkapkan metode pelatihan "self-bootstrapping": menggunakan Composer lama untuk menyiapkan lingkungan bagi model baru, Terminal-Bench meningkat 14 poin

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, Cursor mengungkapkan sebuah trik pelatihan dari rangkaian model Composer: menggunakan model generasi sebelumnya untuk secara otomatis membangun lingkungan yang dapat dijalankan untuk pembelajaran penguatan (RL) generasi berikutnya. Saat melatih Composer 2, Cursor menggunakan Composer 1.5 untuk menyelesaikan pekerjaan ini, yang disebut sebagai autoinstall.

Pelatihan RL membutuhkan lingkungan kode yang dapat dijalankan. Jika lingkungan tidak terpasang dengan baik, model akan membuang token untuk memperbaiki bug, sehingga tidak belajar apa-apa; dalam kasus ekstrem, lingkungan sama sekali tidak bisa berjalan, dan seluruh daya komputasi pelatihan terbuang sia-sia. autoinstall menyelesaikan masalah ini dalam dua langkah: langkah pertama, satu agen membaca dokumentasi dan konfigurasi kode, lalu mengusulkan 10 perintah verifikasi beserta output yang diharapkan; langkah kedua, agen lain mengambil 3 dari perintah tersebut, mulai dari nol mengatur lingkungan sampai perintah berjalan lancar. Langkah kedua maksimal diulang 5 kali, jika semua gagal, lingkungan tersebut dibuang.

Dalam proses pengaturan lingkungan, agen secara aktif melengkapi dependensi yang hilang: memalsukan tabel database, membuat konfigurasi MinIO sebagai pengganti S3, menjalankan container Docker sebagai layanan sidecar, bahkan menghasilkan gambar placeholder. Blog ini menggunakan proyek blockchain celo-org/celo-monorepo sebagai contoh untuk menunjukkan seluruh proses, di mana setelah kegagalan pengaturan lingkungan di putaran pertama, putaran kedua secara mandiri membuat pengguna mock untuk melewati otentikasi, dan akhirnya pengujian berjalan lancar.

Composer 2 meraih skor 61,7% di Terminal-Bench (standar pengujian kemampuan pembangunan lingkungan model), lebih tinggi hampir 14 poin persentase dibandingkan Composer 1.5 yang mencapai 47,9%. Cursor menyatakan rencana ke depan agar versi lama Composer dapat terlibat lebih banyak dalam proses pelatihan, termasuk pra-pemrosesan data, manajemen jalannya, dan penyempurnaan arsitektur.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan