GPT-5.5 Kembali ke Ujung Terdepan dalam Coding, Tapi OpenAI Mengganti Benchmark Setelah Kalah dari Opus 4.7

Berita Gate tanggal 27 April — SemiAnalysis, sebuah firma analisis semikonduktor dan AI, merilis benchmark perbandingan asisten coding yang mencakup GPT-5.5, Claude Opus 4.7, dan DeepSeek V4. Temuan utamanya: GPT-5.5 menandai kembalinya pertama OpenAI ke ujung terdepan dalam model coding dalam enam bulan, dengan insinyur SemiAnalysis kini bergantian antara Codex dan Claude Code setelah sebelumnya hampir sepenuhnya mengandalkan Claude. GPT-5.5 didasarkan pada pendekatan pra-pelatihan baru yang diberi kode “Spud” dan merupakan ekspansi pertama OpenAI dalam skala pra-pelatihan sejak GPT-4.5.

Dalam pengujian praktis, muncul pembagian kerja yang jelas. Claude menangani perencanaan proyek baru dan penyiapan awal, sementara Codex unggul pada perbaikan bug yang membutuhkan penalaran intensif. Codex menunjukkan pemahaman yang lebih kuat tentang struktur data dan penalaran logis, tetapi kesulitan menyimpulkan maksud pengguna yang ambigu. Pada satu tugas di satu dasbor, Claude secara otomatis meniru tata letak halaman referensi tetapi memalsukan dalam jumlah besar data, sedangkan Codex melewatkan tata letak tetapi menyajikan data yang jauh lebih akurat.

Analisis mengungkap detail manipulasi benchmark: posting blog OpenAI pada Februari mendorong industri untuk mengadopsi SWE-bench Pro sebagai standar baru untuk benchmark coding. Namun, pengumuman GPT-5.5 beralih ke benchmark baru yang disebut “Expert-SWE.” Alasannya, yang terselip dalam catatan kecil, adalah bahwa GPT-5.5 disalip oleh Opus 4.7 pada SWE-bench Pro dan tertinggal jauh dari Mythos (77.8%) yang belum dirilis Anthropic.

Terkait Opus 4.7, Anthropic menerbitkan analisis pasca-kematian satu minggu setelah rilis, mengakui tiga bug dalam Claude Code yang bertahan selama beberapa minggu dari Maret hingga April, dan memengaruhi hampir semua pengguna. Beberapa insinyur sebelumnya telah melaporkan penurunan performa pada versi 4.6, tetapi diabaikan sebagai pengamatan subjektif. Selain itu, tokenizer baru Opus 4.7 meningkatkan penggunaan token hingga 35%, yang secara terbuka diakui Anthropic—secara efektif merupakan kenaikan harga yang tersembunyi.

DeepSeek V4 dinilai sebagai “mampu menyamai laju dengan yang di garis depan tetapi tidak memimpin,” dengan memposisikan dirinya sebagai alternatif berbiaya terendah di antara model sumber tertutup. Analisis juga mencatat bahwa “Claude terus mengungguli DeepSeek V4 Pro pada tugas penulisan bahasa Tionghoa dengan kesulitan tinggi,” dengan komentar bahwa “Claude menang melawan model Tionghoa di bahasa aslinya.”

Artikel ini memperkenalkan konsep kunci: harga model harus dievaluasi berdasarkan “biaya per tugas” bukan “biaya per token.” Harga GPT-5.5 dua kali lipat dari GPT-5.4 (input $5, output $30 per million tokens), tetapi ia menyelesaikan tugas yang sama dengan token yang lebih sedikit, sehingga biaya aktualnya tidak harus lebih tinggi. Data awal SemiAnalysis menunjukkan rasio input-ke-output Codex sebesar 80:1, lebih rendah daripada rasio Claude Code 100:1.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Samsung Electro-Mechanics Menguat karena Permintaan AI, KB Securities Menaikkan Target Harga pada 4 Mei

Menurut KB Securities pada 4 Mei, Samsung Electro-Mechanics mempertahankan peringkat beli dan menaikkan harga sasarannya, dengan alasan permintaan yang kuat untuk kapasitor keramik multilapis dan substrat FC-BGA yang digunakan dalam server AI. Perusahaan melaporkan pendapatan kuartal pertama sebesar 3,2 triliun won (2,18 miliar dolar AS) dan

GateNews8menit yang lalu

Meta AI Meningkatkan Keterlibatan Facebook, Instagram di Q1 FY26; Waktu Tonton Reels Naik 10%

Menurut The Economic Times, hasil Q1 FY26 Meta menunjukkan peningkatan AI yang mendorong keterlibatan video di Facebook dan Instagram. Waktu yang dihabiskan untuk Instagram Reels naik 10%, sementara waktu tonton video Facebook meningkat lebih dari 8% secara global. Harga rata-rata per iklan naik 12% year-on-year, dan lebih dari 8

GateNews8menit yang lalu

Penelitian terbaru dari Harvard Medical School: AI dalam ruang gawat darurat melampaui dokter manusia dalam keputusan diagnostik

Penelitian dari Harvard Medical School yang dimuat dalam jurnal Science, melalui uji buta ganda dan penalaran klinis, secara objektif membandingkan perbedaan dalam pembacaan rekam medis antara sistem AI dan dokter manusia. Hasilnya menunjukkan bahwa AI pada titik keputusan tahap awal di ruang gawat darurat dapat setara dengan atau lebih unggul daripada dokter penanggung jawab, dan hanya dengan informasi rekam medis elektronik yang tersedia saat itu. Penelitian tersebut juga menekankan bahwa AI belum dapat menjalankan praktik medis secara mandiri, sehingga dokter tetap tidak tergantikan; jika diterapkan secara luas, AI dapat menurunkan kesalahan diagnosis dan biaya berobat.

ChainNewsAbmedia24menit yang lalu

10 Konglomerat Teratas Korea Selatan Meningkat 65% menjadi 2,6 Triliun dolar AS saat Saham Chip AI Menguat

Menurut The Korea Herald, 10 konglomerat terbesar di Korea Selatan mengalami kenaikan nilai pasar gabungan sebesar 65% menjadi 3.832,7 triliun won (US$2,6 triliun), didorong oleh reli saham chip terkait AI. SK Group mencatat kenaikan terbesar dengan meningkat 89,6% menjadi 1.139,8 triliun won (US$775 miliar), dipimpin oleh a

GateNews27menit yang lalu

Investasi AI Mendorong 75% Pertumbuhan PDB AS pada Kuartal 1, Kata Penasihat Gedung Putih

Menurut David Sacks, penasihat AI dan kripto Gedung Putih, ketika menanggapi data Morgan Stanley yang dirilis pada awal Mei, investasi terkait AI berkontribusi sekitar 75% terhadap pertumbuhan PDB AS pada kuartal pertama 2026. Sacks mencatat bahwa investasi AI akan mendorong sekitar 2,5% pertumbuhan PDB tahun ini dan

GateNews32menit yang lalu

Talenta AI Meraih Hingga 25% Lebih Banyak di Singapura, Laporan NodeFlair Menunjukkan

Berdasarkan Laporan Gaji Teknologi 2026 NodeFlair yang dirilis pada 4 Mei, insinyur perangkat lunak di Singapura dengan keterampilan AI memperoleh 13% hingga 25% lebih tinggi dibandingkan rekan tanpa keahlian tersebut. Temuan ini didasarkan pada lebih dari 230.000 data gaji yang diverifikasi. Kenaikan gaji bervariasi menurut level karier, dengan

GateNews1jam yang lalu
Komentar
0/400
Tidak ada komentar