llama.cpp 正式发布 WebGPU 后端,浏览器端本地跑大模型成为现实
llama.cpp 近日正式发布了与 ggml 官方合作的 WebGPU 后端,代号「LlamaWeb」。这一更新意味着 GGUF 格式的大语言模型可以直接在浏览器中通过用户本地 GPU 进行加速推理,无需依赖任何云端服务或复杂的 WebAssembly 架构。
显存占用骤降三成,吞吐量提升近七成
根据团队 5 月 20 日发表的论文,LlamaWeb 引入静态内存规划(Static Memory Planning)与高效模型加载机制,在英特尔、苹果 M 系列以及英伟达等主流 GPU 设备上,网页端运行时的显存开销相较现有框架降低 29% 至 33%,解码吞吐量平均提升 45% 至 69%。这一数据基于来自 8 家厂商的 16 台设备、10 个语言模型及四种权重格式的系统性评测。
数据不出设备,隐私推理成为可能
与传统云端 AI 架构相比,浏览器原生推理的核心优势在于数据不离开用户设备。每次 API 调用中 200–800 毫秒的网络延迟、API 密钥的存放风险以及对外部系统的硬性依赖都成为历史。用户输入始终在浏览器沙箱内由本地 GPU 处理,从根本上保障了隐私安全。
截至 2025 年末,WebGPU 已 Chrome、Firefox、Edge 和 Safari 中默认启用,覆盖全球约 82.7% 的浏览器流量。WebGPU API 抽象了不同厂商 GPU 的硬件差异,同一套着色器代码(WGSL)可在 Apple M 系列、NVIDIA 显卡和 AMD GPU 上运行,工程化门槛大幅降低。
开源演示已可体验
网页端演示基于开源库 wllama 构建,近期完成的底层优化已实现比论文数据更优的显存控制。llama.cpp 还可通过 Google 的 C++ WebGPU 实现 Dawn 进行本地原生编译,为 Vulkan 与 WebGPU 之间的性能对比提供可重现的评测基准。
LlamaWeb 的发布为网页生态打通了零配置的本地算力入口,开发者只需几行代码即可在网页中嵌入本地运行的 AI 模型,大模型推理正从云端加速向端侧迁移。