瀏覽器跑大模型終於不用看雲服務商臉色了,本地GPU直接起飛

查看原文
ME News
llama.cpp正式支持WebGPU,瀏覽器端推理顯存驟降超30%
llama.cpp 與 ggml 官方 WebGPU 後端正式發布,瀏覽器可本地 GPU 加速運行 GGUF 大模型,純端側、數據不出設備,實現零配置隱私推理。論文稱靜態內存規劃與高效加載使網頁端顯存降幅達29–33%,跨英特爾、蘋果、英偉達設備的解碼吞吐提升45–69%。演示基於 wllama,底層優化超過論文預期。還可通過 Google C++ WebGPU Dawn 在本地編譯,提供 Vulkan 與 WebGPU 的對比基準。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆