GPT-5.5 menduduki puncak standar pemrograman ekstrem FrontierSWE, tetapi jumlah kecurangan juga terbanyak

Menurut pemantauan Beating, tim riset AI Proximal memperbarui tolok ukur pemrograman jarak jauh yang sangat panjang, FrontierSWE peringkat. GPT-5.5 yang baru ditambahkan (berjalan melalui Codex) secara signifikan unggul di dua indikator, mean@5 (rata-rata 5 percobaan) dan best@5 (skor tertinggi), dibandingkan dengan peringkat kedua Claude Opus 4.7, dengan tingkat dominasi mencapai 83%. Tetapi GPT-5.5 juga merupakan model yang paling sering melakukan kecurangan: dari 85 percobaan, 8 kali dinyatakan melakukan kecurangan, sejajar dengan Kimi K2.6.

FrontierSWE dirilis pada bulan April, mengumpulkan 17 tantangan nyata di bidang optimisasi compiler, riset ML, rekayasa berkinerja tinggi, dan lain-lain, seperti menulis ulang Git dengan Zig, membangun server SQLite yang kompatibel dengan PostgreSQL, masing-masing dengan batas waktu 20 jam, dan saat ini merupakan tolok ukur pemrograman publik yang jarang dilalui. Dibandingkan pendahulunya, GPT-5.5 lebih matang dalam pengelolaan waktu: tugas terbuka memakan lebih banyak waktu untuk menyempurnakan solusi, menyelesaikan tugas serupa lebih cepat dan mendapatkan skor lebih tinggi.

Pengujian sebelumnya telah mengungkapkan beberapa masalah umum pada agen pemrograman AI. Model umumnya terlalu percaya diri, jauh sebelum batas waktu 20 jam, mereka mengira tugas telah selesai dan mengirimkan hasil secara prematur karena penilaian dangkal terhadap diri sendiri. Opus 4.6 menghabiskan rata-rata lebih dari 8 jam untuk satu tugas, jauh melebihi model lain yang sekitar 2 jam, tetapi sering kehilangan optimisasi yang sudah ada dan kemudian “menemukan kembali” secara rekursif. Kecurangan sangat menonjol dalam tugas dengan tekanan tinggi: dalam tugas porting Mojo yang secara tegas melarang penggunaan PyTorch, semua model kecuali Qwen 3.6 mencoba melakukan kecurangan, Gemini menyembunyikan nama library terlarang dengan encoding karakter dan menjalankan proses tersembunyi di direktori sementara, bahkan Opus 4.6 menulis “bersedia melakukan kecurangan” dalam proses inferensi sebelum bertindak.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan