llama.cpp dan ggml resmi merilis backend WebGPU, memungkinkan browser menjalankan model besar GGUF dengan akselerasi GPU lokal, murni di sisi perangkat, data tidak keluar dari perangkat, mewujudkan inferensi privasi tanpa konfigurasi. Penelitian menyebutkan bahwa perencanaan memori statis dan pemuatan yang efisien mengurangi penggunaan memori GPU di web hingga 29–33%, serta meningkatkan throughput decoding sebesar 45–69% di perangkat Intel, Apple, dan Nvidia. Demonstrasi berbasis wllama, dengan optimisasi tingkat rendah melebihi ekspektasi penelitian. Juga dapat dikompilasi secara lokal melalui Google C++ WebGPU Dawn, menyediakan benchmark perbandingan antara Vulkan dan WebGPU.

MeNews

2026-05-22 13:03:46

Pembuatan abstrak sedang berlangsung

ME AI Pesan, menurut pemantauan Beating, backend WebGPU resmi dari llama.cpp dan ggml telah dirilis secara resmi, mendukung menjalankan model besar dalam format GGUF secara langsung di browser dengan akselerasi GPU lokal. Backend baru ini menghilangkan ketergantungan pada klien asli tertentu atau arsitektur WebAssembly yang kompleks, mewujudkan inferensi privasi murni di sisi perangkat, tanpa data keluar dari perangkat, membuka pintu masuk kekuatan komputasi lokal tanpa konfigurasi untuk ekosistem web. Makalah terkait yang dipublikasikan pada 20 Mei menunjukkan bahwa backend WebGPU memperkenalkan perencanaan memori statis dan mekanisme pemuatan model yang efisien, mengurangi konsumsi memori GPU saat runtime di browser sebesar 29% hingga 33% dibandingkan kerangka kerja yang ada. Pada perangkat GPU utama seperti Intel, Apple, dan Nvidia, throughput decoding meningkat rata-rata antara 45% hingga 69%. Demonstrasi di browser berjalan berdasarkan pustaka sumber terbuka wllama, dan optimisasi tingkat dasar yang baru-baru ini diselesaikan telah mencapai pengendalian memori GPU yang lebih baik dari yang dilaporkan dalam makalah. llama.cpp juga dapat dikompilasi secara native melalui Dawn menggunakan WebGPU C++ dari Google, menyediakan tolok ukur untuk perbandingan kinerja dasar antara Vulkan dan WebGPU. （Sumber: BlockBeats）

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

12 Suka

Hadiah
12
10
2
Bagikan

Komentar

Tambahkan komentar

UnderTheGlassDome

· 3jam yang lalu

ggml kali ini adaptasi WebGPU-nya benar-benar detail, penurunan penggunaan memori sebesar 29% cukup berarti

Lihat AsliBalas0

StargazerInTheWoods

· 4jam yang lalu

Apakah hambatan terbesar untuk penyebaran WebGPU adalah dukungan Safari?

Lihat AsliBalas0

MountainBeforeTheStorm

· 4jam yang lalu

Inferensi sisi murni berarti riwayat obrolan saya akhirnya tidak perlu lagi diunggah ke cloud

Lihat AsliBalas0

OwlMarketMonitoringLamp

· 5jam yang lalu

Akhirnya bisa menjalankan model besar lokal di browser, para pecinta privasi sangat gembira

Lihat AsliBalas0

BridgeHopRanger

· 5jam yang lalu

Nanti Chrome akan menjadi IDE AI saya.

Lihat AsliBalas0

APuppyInTheWarmSun

· 5jam yang lalu

Peningkatan throughput sebesar 45-69%, pengalaman di web harus mengalami perubahan besar

Lihat AsliBalas0

LpGrandma

· 5jam yang lalu

Format GGUF + WebGPU, ekosistem llama.cpp semakin lengkap

Lihat AsliBalas0

AirdropArchivist

· 5jam yang lalu

Ritme peluncuran ini, tim llama.cpp benar-benar tidak tidur ya

Lihat AsliBalas0

RetroRadioEcho

· 5jam yang lalu

Perencanaan memori statis, istilah teknis ini terdengar seperti menghemat memori video

Lihat AsliBalas0

ReboundAtTheStreetCornerAfter

· 5jam yang lalu

Dawn mengompilasi jalur ini untuk memberi pintu belakang kepada pemain hardcore, pujian

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
267.33K Popularitas
#
PlatinumCardCreatorExclusive
79.14K Popularitas
#
IsraelStrikesIranBTCPlunges
48.62K Popularitas
#
#DailyPolymarketHotspot
1.03M Popularitas
#
GateSquarePizzaDay
607.91K Popularitas

Disematkan

peta situs

llama.cpp resmi mendukung WebGPU, inferensi di browser mengurangi penggunaan memori GPU lebih dari 30%

Topik Trending

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan