Menurut pemantauan Beating, Cursor mengungkapkan sebuah trik pelatihan dari rangkaian model Composer: menggunakan model generasi sebelumnya untuk secara otomatis membangun lingkungan yang dapat dijalankan untuk pembelajaran penguatan (RL) generasi berikutnya. Saat melatih Composer 2, Cursor menggunakan Composer 1.5 untuk menyelesaikan pekerjaan ini, yang disebut sebagai autoinstall.

Pelatihan RL membutuhkan lingkungan kode yang dapat dijalankan. Jika lingkungan tidak terpasang dengan baik, model akan membuang token untuk memperbaiki bug, sehingga tidak belajar apa-apa; dalam kasus ekstrem, lingkungan sama sekali tidak bisa berjalan, dan seluruh daya komputasi pelatihan terbuang sia-sia. autoinstall menyelesaikan masalah ini dalam dua langkah: langkah pertama, satu agen membaca dokumentasi dan konfigurasi kode, lalu mengusulkan 10 perintah verifikasi beserta output yang diharapkan; langkah kedua, agen lain mengambil 3 dari perintah tersebut, mulai dari nol mengatur lingkungan sampai perintah berjalan lancar. Langkah kedua maksimal diulang 5 kali, jika semua gagal, lingkungan tersebut dibuang.

Dalam proses pengaturan lingkungan, agen secara aktif melengkapi dependensi yang hilang: memalsukan tabel database, membuat konfigurasi MinIO sebagai pengganti S3, menjalankan container Docker sebagai layanan sidecar, bahkan menghasilkan gambar placeholder. Blog ini menggunakan proyek blockchain celo-org/celo-monorepo sebagai contoh untuk menunjukkan seluruh proses, di mana setelah kegagalan pengaturan lingkungan di putaran pertama, putaran kedua secara mandiri membuat pengguna mock untuk melewati otentikasi, dan akhirnya pengujian berjalan lancar.

Composer 2 meraih skor 61,7% di Terminal-Bench (standar pengujian kemampuan pembangunan lingkungan model), lebih tinggi hampir 14 poin persentase dibandingkan Composer 1.5 yang mencapai 47,9%. Cursor menyatakan rencana ke depan agar versi lama Composer dapat terlibat lebih banyak dalam proses pelatihan, termasuk pra-pemrosesan data, manajemen jalannya, dan penyempurnaan arsitektur.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
548.5K Popularitas
#
BTCPullback
106.31M Popularitas
#
IsraelStrikesIranBTCPlunges
43.68K Popularitas
#
CLARITYActStalled
3.28M Popularitas
#
CryptoStocksRally
1.42M Popularitas

Sematkan

peta situs

Cursor mengungkapkan metode pelatihan "self-bootstrapping": menggunakan Composer lama untuk menyiapkan lingkungan bagi model baru, Terminal-Bench meningkat 14 poin

Topik Trending

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Sematkan