llama.cpp resmi mendukung WebGPU, inferensi di browser mengurangi penggunaan memori GPU lebih dari 30%

robot
Pembuatan abstrak sedang berlangsung
ME AI Pesan, menurut pemantauan Beating, backend WebGPU resmi dari llama.cpp dan ggml telah dirilis secara resmi, mendukung menjalankan model besar dalam format GGUF secara langsung di browser dengan akselerasi GPU lokal. Backend baru ini menghilangkan ketergantungan pada klien asli tertentu atau arsitektur WebAssembly yang kompleks, mewujudkan inferensi privasi murni di sisi perangkat, tanpa data keluar dari perangkat, membuka pintu masuk kekuatan komputasi lokal tanpa konfigurasi untuk ekosistem web. Makalah terkait yang dipublikasikan pada 20 Mei menunjukkan bahwa backend WebGPU memperkenalkan perencanaan memori statis dan mekanisme pemuatan model yang efisien, mengurangi konsumsi memori GPU saat runtime di browser sebesar 29% hingga 33% dibandingkan kerangka kerja yang ada. Pada perangkat GPU utama seperti Intel, Apple, dan Nvidia, throughput decoding meningkat rata-rata antara 45% hingga 69%. Demonstrasi di browser berjalan berdasarkan pustaka sumber terbuka wllama, dan optimisasi tingkat dasar yang baru-baru ini diselesaikan telah mencapai pengendalian memori GPU yang lebih baik dari yang dilaporkan dalam makalah. llama.cpp juga dapat dikompilasi secara native melalui Dawn menggunakan WebGPU C++ dari Google, menyediakan tolok ukur untuk perbandingan kinerja dasar antara Vulkan dan WebGPU. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 10
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
UnderTheGlassDome
· 3jam yang lalu
ggml kali ini adaptasi WebGPU-nya benar-benar detail, penurunan penggunaan memori sebesar 29% cukup berarti
Lihat AsliBalas0
StargazerInTheWoods
· 4jam yang lalu
Apakah hambatan terbesar untuk penyebaran WebGPU adalah dukungan Safari?
Lihat AsliBalas0
MountainBeforeTheStorm
· 4jam yang lalu
Inferensi sisi murni berarti riwayat obrolan saya akhirnya tidak perlu lagi diunggah ke cloud
Lihat AsliBalas0
OwlMarketMonitoringLamp
· 5jam yang lalu
Akhirnya bisa menjalankan model besar lokal di browser, para pecinta privasi sangat gembira
Lihat AsliBalas0
BridgeHopRanger
· 5jam yang lalu
Nanti Chrome akan menjadi IDE AI saya.
Lihat AsliBalas0
APuppyInTheWarmSun
· 5jam yang lalu
Peningkatan throughput sebesar 45-69%, pengalaman di web harus mengalami perubahan besar
Lihat AsliBalas0
LpGrandma
· 5jam yang lalu
Format GGUF + WebGPU, ekosistem llama.cpp semakin lengkap
Lihat AsliBalas0
AirdropArchivist
· 5jam yang lalu
Ritme peluncuran ini, tim llama.cpp benar-benar tidak tidur ya
Lihat AsliBalas0
RetroRadioEcho
· 5jam yang lalu
Perencanaan memori statis, istilah teknis ini terdengar seperti menghemat memori video
Lihat AsliBalas0
ReboundAtTheStreetCornerAfter
· 5jam yang lalu
Dawn mengompilasi jalur ini untuk memberi pintu belakang kepada pemain hardcore, pujian
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan