Analisis Berkeley GEPA: AI bisa mempelajari tugas baru tanpa memperbarui bobot, 35 kali lebih sedikit biaya pelatihan dibanding RL

ChainNewsAbmedia

Tim riset dari Universitas California, Berkeley mengajukan metode pelatihan AI baru, GEPA, yang telah diterima oleh ICLR 2026 sebagai makalah Oral. GEPA tidak memperbarui bobot model, tidak perlu pelatihan dengan GPU, hanya menggunakan satu LLM yang “membaca catatan pelatihan” untuk terus menulis ulang prompt sistem AI. Dengan cara ini, pada 6 tugas GEPA rata-rata mengungguli metode reinforcement learning arus utama GRPO sebesar 6%, dengan kemenangan tertinggi mencapai 20%, serta membutuhkan jumlah percobaan pelatihan (rollouts) 35 kali lebih sedikit. Setelah ditata oleh komunitas engineering AI dan menyebar di platform X, topik ini memicu diskusi. Saat ini GEPA telah diintegrasikan ke dalam DSPy sebagai optimizier kelas satu.

GEPA melakukan apa: menjadikan catatan pelatihan sebagai materi ajar, bukan hanya melihat skor

Alur kerja metode reinforcement learning tradisional (seperti GRPO) adalah: membuat AI menjalankan satu kali tugas, memberi “+1 atau -1” sebagai skor berdasarkan hasil, lalu berulang kali menyesuaikan bobot model dengan skor tersebut. Masalahnya, proses AI saat menjalankan tugas satu kali biasanya mencakup langkah inferensi dengan ribuan token, pemanggilan alat, dan pesan kesalahan—detail kaya ini semuanya dipadatkan menjadi satu skor, sehingga informasi proses hilang. Akibatnya, RL perlu menjalankan puluhan ribu hingga jutaan kali agar konvergen.

Cara GEPA justru sebaliknya: setelah AI menjalankan tugas, seluruh rangkaian proses (reasoning, pemanggilan alat, dan catatan error) diberikan apa adanya kepada LLM lain yang “berpikir ulang” untuk dibaca. LLM berpikir ulang seperti insinyur senior yang membaca log kode: mencari langkah mana yang salah, mengapa salah, dan bagaimana mengubah prompt, lalu langsung menulis ulang prompt modul terkait. Dengan satu kali menjalankan tugas yang sama, sinyal yang diekstrak GEPA jauh lebih banyak dibanding skor tunggal RL.

Mengapa bisa menang: mengubah “memberi skor” menjadi “membaca seluruh proses”

GEPA pada 6 tugas rata-rata menang atas GRPO sebesar 6%, dan kemenangan tertinggi 20%; dibandingkan optimizier prompt arus utama lain MIPROv2 juga menang lebih dari 10% (meningkat 12% pada benchmark matematika AIME-2025). Yang paling krusial adalah biaya pelatihan: untuk mencapai performa setara, GEPA membutuhkan rollouts (sekali menjalankan tugas) 35 kali lebih sedikit.

Satu data lain: setelah integrasi GEPA dengan DSPy, “Full Program Adapter” dapat mengoptimalkan seluruh program DSPy (termasuk signature, modul, dan kontrol alur). Pada benchmark MATH mencapai akurasi 93%, jauh melampaui penulisan ChainOfThought asli DSPy yang hanya 67%. GEPA juga tampil sangat baik pada alur kerja multi-module (agent AI yang merangkai banyak modul)—mampu mengunci modul tertentu yang salah lalu mengubah prompt modul tersebut secara presisi, bukan menyesuaikan seluruh sistem.

Siapa yang akan lebih dulu memakainya: DSPy sebagai warga kelas satu, dan kode GitHub sudah open-source

Kode GEPA sudah diopen-source di GitHub, diintegrasikan ke kerangka DSPy dalam bentuk dspy.GEPA, dan juga dirilis terpisah sebagai library Python. Tim riset lintas UC Berkeley, Stanford, Notre Dame, Anthropic, dan institusi lain; penulis makalah mencakup Matei Zaharia (co-founder Databricks, penulis utama DSPy) dan Omar Khattab (penulis utama DSPy).

Bagi komunitas pengembang, GEPA menawarkan solusi baru untuk kasus “memiliki banyak rollout tapi tidak tahu cara memanfaatkannya”—kebanyakan tim telah mengumpulkan ribuan hingga puluhan ribu catatan menjalankan tugas dengan agent, namun selain memeriksa beberapa catatan saat terjadi error untuk debugging, tidak ada metode sistematis untuk mengubah catatan tersebut menjadi peningkatan model. Langkah observasi berikutnya adalah penerapan kasus nyata GEPA dalam alur kerja agentic perusahaan (seperti otomatisasi layanan pelanggan, perbaikan kode otomatis), serta apakah akan muncul implementasi GEPA yang sepadan di luar framework DSPy.

Artikel Berkeley GEPA Analysis: tidak memperbarui bobot supaya AI mempelajari tugas baru, dengan biaya pelatihan 35 kali lebih sedikit daripada RL, mula-mula muncul di Chain News ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Vercel Membuka Sumber Framework deepsec dengan 1.000+ Konkurensi Sandbox untuk Pemindaian Keamanan AI Lokal

Menurut Beating, Vercel telah merilis open-source deepsec, sebuah kerangka kerja pengujian keamanan yang digerakkan AI yang memungkinkan pengembang memindai basis kode berukuran besar secara lokal tanpa mengekspos kode sumber ke layanan cloud eksternal. Kerangka kerja ini menggunakan alur verifikasi multi-tahap: setelah penyaringan regex awal, sebuah

GateNews4jam yang lalu

Kamera Netradyne AI Memantau Perilaku Pengemudi di Armada

Sistem Pemantauan Pengemudi AI Netradyne Netradyne, sebuah startup India, tengah memasang kamera bertenagai AI di armada kendaraan komersial untuk memantau perilaku pengemudi dan mengurangi kecelakaan. Kamera yang menghadap ke dalam berfokus pada pengemudi, bukan penumpang, serta memberi peringatan kepada pengemudi ketika mereka melampaui batas kecepatan atau

CryptoFrontier5jam yang lalu

AequiSolva Meluncurkan Arsitektur AI Sentinel Stack untuk Verifikasi Aset Institusional pada 30 April

Menurut AequiSolva, perusahaan meluncurkan arsitektur pertukaran Sentinel Stack™ yang terintegrasi AI pada 30 April 2026, dengan fitur eksekusi deterministik, pengawasan pasar berbasis AI, serta Omni-Attest Engine™ untuk pembuktian cadangan kriptografis berkelanjutan. Platform ini menggabungkan tiga inti

GateNews10jam yang lalu

Karpathy membocorkan: metode lengkap membangun basis pengetahuan pribadi dengan LLM

Anggota pendiri OpenAI, mantan Chief AI di Tesla Andrej Karpathy memublikasikan di X “LLM Knowledge Bases” alur kerja, serta menjelaskan bahwa baru-baru ini ia mengalihkan penggunaan token dalam jumlah besar dari “mengendalikan kode” menjadi “mengendalikan pengetahuan”—menggunakan LLM untuk mengubah kumpulan makalah, artikel, folder, gambar yang tersebar menjadi satu wiki pribadi yang terpelihara secara otomatis. Seluruh rangkaian proses ini telah ia akumulasikan di proyek riset pribadinya menjadi sekitar ~100 artikel, ~400 ribu kata, dan semuanya ditulis serta diperbarui sepanjang waktu oleh LLL. Artikel ini merangkum setup lengkap Karpathy dan daftar implementasi yang bisa dicopy oleh pengembang yang ingin menirunya. Gagasan inti: data mentah → kompilasi oleh LLM → wiki → Q&A Filosofi desain Karpathy bisa diringkas menjadi

ChainNewsAbmedia17jam yang lalu

Bitcoin Treasury Firm K Wave Media Mengamankan hingga $485M untuk pembangunan infrastruktur AI

Menurut ChainCatcher, perusahaan treasury bitcoin yang terdaftar di Nasdaq, K Wave Media, mengumumkan pada 4 Mei pergeseran strategis ke infrastruktur AI, dengan mengamankan dukungan modal hingga 485 juta dolar AS untuk investasi pusat data, layanan sewa GPU, serta akuisisi dan kemitraan infrastruktur AI. Perusahaan ini

GateNews18jam yang lalu

Antimatter Meluncurkan Rencana Pusat Data AI dengan Pendanaan €300 juta

Antimatter, perusahaan infrastruktur cloud berbasis di Prancis untuk kebutuhan AI, meluncur pada 4 Mei dengan menggabungkan tiga perusahaan yang sudah ada: Datafactory, Policloud, dan Hivenet. Perusahaan ini mengumpulkan 300 juta euro (US$351 juta) untuk menempatkan 100 unit pusat data mikro pada 2026 untuk inferensi AI

CryptoFrontier20jam yang lalu
Komentar
0/400
Tidak ada komentar