MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

谷歌开源Gemma 4全系MTP草稿模型,推理速度最高提升3倍且零质量损耗

谷歌发布并开源了Gemma 4系列的多Token预测(MTP)草稿模型,采用投机解码架构,可在不损失输出质量的前提下实现最高3倍的推理提速。

References

谷歌于近日正式发布并开源了Gemma 4系列的多Token预测(MTP)草稿模型。这是一套采用投机解码(Speculative Decoding)架构的轻量级辅助模型,能够在主模型保留最终验证权的前提下,实现最高3倍的推理加速,同时完全不损耗输出质量和逻辑推理能力。

技术原理:打破传统LLM的逐Token生成瓶颈

标准大语言模型在生成文本时每次只能输出一个Token,这种逐Token串行生成的方式容易受到显存带宽限制,导致算力闲置。MTP方案通过引入轻量级的草稿模型(Draft Model)来利用这些闲置算力,让草稿模型提前一次性预测多个未来Token,再交由31B等重型目标模型进行并行验证。

若目标模型同意草稿的预测结果,便可一次性接收整段序列,从而大幅提升推理效率。为进一步优化性能,草稿模型直接共享了目标模型的激活状态和KV缓存,有效存储历史上下文以避免重复计算。针对端侧场景的E2B和E4B模型,团队还在嵌入层引入了聚类技术,以提升资源受限环境下的推理表现。

开源与生态支持

目前,MTP模型已采用与Gemma 4相同的Apache 2.0协议全面开源。在框架支持方面,该模型原生支持vLLM、SGLang和Ollama等主流推理框架,开发者无需额外适配即可快速集成。

应用前景

这一提速优化显著降低了Gemma 4系列模型的应用门槛。开发者如今可以在普通消费级显卡上流畅运行26B MoE和31B稠密模型,也能在移动设备上以更低功耗支撑实时AI交互,推动端侧AI应用的进一步普及。