Artificial Analysis Merilis Tolok Ukur Agen Pengekodean; Zhipu GLM-5.1 Menempati Peringkat Pertama di Antara Model Open-Source

Artificial Analysis merilis Index Agen Koding baru hari ini untuk mengevaluasi bagaimana model AI berperforma saat digabungkan dengan framework agen di berbagai tolok ukur utama, termasuk SWE-Bench-Pro-Hard-AA, Terminal-Bench v2, dan SWE-Atlas-QnA. Zhipu GLM-5.1 menempati peringkat pertama di antara model open-source dalam evaluasi, menunjukkan performa terdepan pada skenario agen koding di dunia nyata.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

SAP Berinvestasi di n8n, Menggandakan Penilaian Platform Otomatisasi Workflow hingga 5,2 miliar dolar AS

Menurut Bloomberg, SAP berinvestasi pada n8n pada Selasa, menggandakan valuasi platform otomasi workflow tersebut menjadi 5,2 miliar dolar AS. Raksasa perangkat lunak Jerman itu juga menandatangani perjanjian kemitraan multi-tahun dengan n8n untuk mengintegrasikan alat platform ke dalam platform pembangun agen AI SAP, Joule Studio, menurut pernyataan SAP.

GateNews24menit yang lalu

DAPPOS Meluncurkan xBubble, Agen AI Universal dengan 10+ Fitur Utama untuk Pengguna Non-Teknis

Menurut ChainCatcher, DAPPOS secara resmi meluncurkan xBubble, sebuah produk agen AI universal yang dirancang untuk pengguna non-teknis. Produk ini secara otomatis merekomendasikan agen khusus untuk menyelesaikan tugas dengan prompt yang minimal dan lebih sedikit iterasi debugging. xBubble menyediakan 10+ kemampuan inti yang mencakup pembuatan gambar, video, dokumen, dan situs web, serta mendukung penerapan lokal dan cloud.

GateNews5jam yang lalu

Nous Research Meluncurkan Agent Hermes untuk Kontrol Komputer macOS, Mengurangi Konsumsi Token hingga 95%

Nous Research mengumumkan bahwa Hermes Agent miliknya telah meluncurkan fungsionalitas kontrol komputer macOS, menurut pemantauan oleh Beating. Fitur ini memungkinkan operasi latar belakang seperti pencarian email dan penulisan kode tanpa mengganggu input pengguna atau fokus jendela. Melalui mekanisme kompresi konteks empat lapis, framework ini menurunkan konsumsi token dari sekitar 600.000 menjadi 30.000 token saat menjalankan 20 operasi berurutan pada resolusi 1568×900.

GateNews7jam yang lalu

SNS dan PoH Network Memungkinkan Verifikasi AI di Solana

SNS telah memperluas kegunaan domain .sol melalui integrasi baru dengan PoH Network, memperkenalkan fitur verifikasi identitas on-chain yang ditingkatkan di dalam ekosistem Solana, menurut pengumuman bertanggal 11 Mei 2026. Kolaborasi ini dirancang untuk membantu membedakan pengguna manusia dari entitas kecerdasan buatan di-chain sekaligus meningkatkan kegunaan dan nilai kontekstual identitas berbasis blockchain. Integrasi ini dikembangkan selama Colosseum Frontier Hackathon dan menandai ekspans

CryptoFrontier7jam yang lalu

MoonPay Akuisisi Dawn Labs, Meluncurkan Alat Agen AI untuk Trading Prediction Market

Menurut The Block, MoonPay telah mengakuisisi Dawn Labs dan meluncurkan Dawn CLI, sebuah alat berbasis AI yang dirancang untuk membantu pengguna non-teknis menyusun strategi trading pasar prediksi. Pengguna dapat menjelaskan strategi trading dalam bahasa Inggris sederhana, sementara sistem mengotomatiskan riset, pembuatan kode, simulasi, dan eksekusi langsung. Aktivitas trading pasar prediksi di berbagai platform seperti Polymarket dan Kalshi telah melonjak dalam beberapa tahun terakhir, dengan

GateNews12jam yang lalu

Circle Meluncurkan Agent Stack pada 12 Mei, Memungkinkan Agen AI Menggunakan USDC Secara Otonom

Menurut Decrypt, Circle meluncurkan Agent Stack pada 12 Mei, sebuah toolkit yang memungkinkan agen AI untuk secara mandiri menyimpan dana, membayar biaya, dan melakukan transaksi dengan USDC tanpa campur tangan manusia. Paket ini mencakup agent wallet, command-line interface, agent marketplace, dan protokol nano-payment yang mendukung transfer sekecil $0,000001 tanpa biaya gas. Co-founder Circle, Jeremy Allaire, mengatakan bahwa Agent Stack adalah rangkaian layanan keuangan pertama yang dirancan

GateNews12jam yang lalu
Komentar
0/400
Tidak ada komentar