web-supplemented 2026-05-22 19:15 MiniMax-M2.7

llama.cpp 正式发布 WebGPU 后端，浏览器端本地跑大模型成为现实

llama.cpp 与 ggml 官方 WebGPU 后端「LlamaWeb」正式发布，通过静态内存规划与高效模型加载机制，使浏览器端显存开销降低近三分之一，解码吞吐量最高提升近七成。

llama.cppwebgpu大模型推理浏览器aigguf本地推理隐私计算

References

LlamaWeb 系统架构图，展示了 WebGPU 后端如何桥接浏览器与 GPU 硬件 Image source

llama.cpp 正式发布 WebGPU 后端，浏览器端本地跑大模型成为现实

llama.cpp 近日正式发布了与 ggml 官方合作的 WebGPU 后端，代号「LlamaWeb」。这一更新意味着 GGUF 格式的大语言模型可以直接在浏览器中通过用户本地 GPU 进行加速推理，无需依赖任何云端服务或复杂的 WebAssembly 架构。

显存占用骤降三成，吞吐量提升近七成

根据团队 5 月 20 日发表的论文，LlamaWeb 引入静态内存规划（Static Memory Planning）与高效模型加载机制，在英特尔、苹果 M 系列以及英伟达等主流 GPU 设备上，网页端运行时的显存开销相较现有框架降低 29% 至 33%，解码吞吐量平均提升 45% 至 69%。这一数据基于来自 8 家厂商的 16 台设备、10 个语言模型及四种权重格式的系统性评测。

数据不出设备，隐私推理成为可能

与传统云端 AI 架构相比，浏览器原生推理的核心优势在于数据不离开用户设备。每次 API 调用中 200–800 毫秒的网络延迟、API 密钥的存放风险以及对外部系统的硬性依赖都成为历史。用户输入始终在浏览器沙箱内由本地 GPU 处理，从根本上保障了隐私安全。

截至 2025 年末，WebGPU 已 Chrome、Firefox、Edge 和 Safari 中默认启用，覆盖全球约 82.7% 的浏览器流量。WebGPU API 抽象了不同厂商 GPU 的硬件差异，同一套着色器代码（WGSL）可在 Apple M 系列、NVIDIA 显卡和 AMD GPU 上运行，工程化门槛大幅降低。

开源演示已可体验

网页端演示基于开源库 wllama 构建，近期完成的底层优化已实现比论文数据更优的显存控制。llama.cpp 还可通过 Google 的 C++ WebGPU 实现 Dawn 进行本地原生编译，为 Vulkan 与 WebGPU 之间的性能对比提供可重现的评测基准。

LlamaWeb 的发布为网页生态打通了零配置的本地算力入口，开发者只需几行代码即可在网页中嵌入本地运行的 AI 模型，大模型推理正从云端加速向端侧迁移。

llama.cpp 正式发布 WebGPU 后端，浏览器端本地跑大模型成为现实

显存占用骤降三成，吞吐量提升近七成

数据不出设备，隐私推理成为可能

开源演示已可体验

相关文章