web-supplemented 2026-05-06 08:35 MiniMax-M2.7

谷歌开源Gemma 4全系MTP草稿模型，推理速度最高提升3倍且零质量损耗

谷歌发布并开源了Gemma 4系列的多Token预测（MTP）草稿模型，采用投机解码架构，可在不损失输出质量的前提下实现最高3倍的推理提速。

googlegemmamtp投机解码大模型开源ai

References

谷歌于近日正式发布并开源了Gemma 4系列的多Token预测（MTP）草稿模型。这是一套采用投机解码（Speculative Decoding）架构的轻量级辅助模型，能够在主模型保留最终验证权的前提下，实现最高3倍的推理加速，同时完全不损耗输出质量和逻辑推理能力。

技术原理：打破传统LLM的逐Token生成瓶颈

标准大语言模型在生成文本时每次只能输出一个Token，这种逐Token串行生成的方式容易受到显存带宽限制，导致算力闲置。MTP方案通过引入轻量级的草稿模型（Draft Model）来利用这些闲置算力，让草稿模型提前一次性预测多个未来Token，再交由31B等重型目标模型进行并行验证。

若目标模型同意草稿的预测结果，便可一次性接收整段序列，从而大幅提升推理效率。为进一步优化性能，草稿模型直接共享了目标模型的激活状态和KV缓存，有效存储历史上下文以避免重复计算。针对端侧场景的E2B和E4B模型，团队还在嵌入层引入了聚类技术，以提升资源受限环境下的推理表现。

目前，MTP模型已采用与Gemma 4相同的Apache 2.0协议全面开源。在框架支持方面，该模型原生支持vLLM、SGLang和Ollama等主流推理框架，开发者无需额外适配即可快速集成。

这一提速优化显著降低了Gemma 4系列模型的应用门槛。开发者如今可以在普通消费级显卡上流畅运行26B MoE和31B稠密模型，也能在移动设备上以更低功耗支撑实时AI交互，推动端侧AI应用的进一步普及。