Artificial Analysis merilis Index Agen Koding baru hari ini untuk mengevaluasi bagaimana model AI berperforma saat digabungkan dengan framework agen di berbagai tolok ukur utama, termasuk SWE-Bench-Pro-Hard-AA, Terminal-Bench v2, dan SWE-Atlas-QnA. Zhipu GLM-5.1 menempati peringkat pertama di antara model open-source dalam evaluasi, menunjukkan performa terdepan pada skenario agen koding di dunia nyata.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
SAP Berinvestasi di n8n, Menggandakan Penilaian Platform Otomatisasi Workflow hingga 5,2 miliar dolar AS
Menurut Bloomberg, SAP berinvestasi pada n8n pada Selasa, menggandakan valuasi platform otomasi workflow tersebut menjadi 5,2 miliar dolar AS. Raksasa perangkat lunak Jerman itu juga menandatangani perjanjian kemitraan multi-tahun dengan n8n untuk mengintegrasikan alat platform ke dalam platform pembangun agen AI SAP, Joule Studio, menurut pernyataan SAP.
GateNews24menit yang lalu
DAPPOS Meluncurkan xBubble, Agen AI Universal dengan 10+ Fitur Utama untuk Pengguna Non-Teknis
Menurut ChainCatcher, DAPPOS secara resmi meluncurkan xBubble, sebuah produk agen AI universal yang dirancang untuk pengguna non-teknis. Produk ini secara otomatis merekomendasikan agen khusus untuk menyelesaikan tugas dengan prompt yang minimal dan lebih sedikit iterasi debugging. xBubble menyediakan 10+ kemampuan inti yang mencakup pembuatan gambar, video, dokumen, dan situs web, serta mendukung penerapan lokal dan cloud.
GateNews5jam yang lalu
Nous Research Meluncurkan Agent Hermes untuk Kontrol Komputer macOS, Mengurangi Konsumsi Token hingga 95%
Nous Research mengumumkan bahwa Hermes Agent miliknya telah meluncurkan fungsionalitas kontrol komputer macOS, menurut pemantauan oleh Beating. Fitur ini memungkinkan operasi latar belakang seperti pencarian email dan penulisan kode tanpa mengganggu input pengguna atau fokus jendela. Melalui mekanisme kompresi konteks empat lapis, framework ini menurunkan konsumsi token dari sekitar 600.000 menjadi 30.000 token saat menjalankan 20 operasi berurutan pada resolusi 1568×900.
GateNews7jam yang lalu
SNS dan PoH Network Memungkinkan Verifikasi AI di Solana
SNS telah memperluas kegunaan domain .sol melalui integrasi baru dengan PoH Network, memperkenalkan fitur verifikasi identitas on-chain yang ditingkatkan di dalam ekosistem Solana, menurut pengumuman bertanggal 11 Mei 2026. Kolaborasi ini dirancang untuk membantu membedakan pengguna manusia dari entitas kecerdasan buatan di-chain sekaligus meningkatkan kegunaan dan nilai kontekstual identitas berbasis blockchain. Integrasi ini dikembangkan selama Colosseum Frontier Hackathon dan menandai ekspans
CryptoFrontier7jam yang lalu
MoonPay Akuisisi Dawn Labs, Meluncurkan Alat Agen AI untuk Trading Prediction Market
Menurut The Block, MoonPay telah mengakuisisi Dawn Labs dan meluncurkan Dawn CLI, sebuah alat berbasis AI yang dirancang untuk membantu pengguna non-teknis menyusun strategi trading pasar prediksi. Pengguna dapat menjelaskan strategi trading dalam bahasa Inggris sederhana, sementara sistem mengotomatiskan riset, pembuatan kode, simulasi, dan eksekusi langsung. Aktivitas trading pasar prediksi di berbagai platform seperti Polymarket dan Kalshi telah melonjak dalam beberapa tahun terakhir, dengan
GateNews12jam yang lalu
Circle Meluncurkan Agent Stack pada 12 Mei, Memungkinkan Agen AI Menggunakan USDC Secara Otonom
Menurut Decrypt, Circle meluncurkan Agent Stack pada 12 Mei, sebuah toolkit yang memungkinkan agen AI untuk secara mandiri menyimpan dana, membayar biaya, dan melakukan transaksi dengan USDC tanpa campur tangan manusia. Paket ini mencakup agent wallet, command-line interface, agent marketplace, dan protokol nano-payment yang mendukung transfer sekecil $0,000001 tanpa biaya gas. Co-founder Circle, Jeremy Allaire, mengatakan bahwa Agent Stack adalah rangkaian layanan keuangan pertama yang dirancan
GateNews12jam yang lalu