谷歌于近日正式发布并开源了Gemma 4系列的多Token预测(MTP)草稿模型。这是一套采用投机解码(Speculative Decoding)架构的轻量级辅助模型,能够在主模型保留最终验证权的前提下,实现最高3倍的推理加速,同时完全不损耗输出质量和逻辑推理能力。
技术原理:打破传统LLM的逐Token生成瓶颈
标准大语言模型在生成文本时每次只能输出一个Token,这种逐Token串行生成的方式容易受到显存带宽限制,导致算力闲置。MTP方案通过引入轻量级的草稿模型(Draft Model)来利用这些闲置算力,让草稿模型提前一次性预测多个未来Token,再交由31B等重型目标模型进行并行验证。
若目标模型同意草稿的预测结果,便可一次性接收整段序列,从而大幅提升推理效率。为进一步优化性能,草稿模型直接共享了目标模型的激活状态和KV缓存,有效存储历史上下文以避免重复计算。针对端侧场景的E2B和E4B模型,团队还在嵌入层引入了聚类技术,以提升资源受限环境下的推理表现。
开源与生态支持
目前,MTP模型已采用与Gemma 4相同的Apache 2.0协议全面开源。在框架支持方面,该模型原生支持vLLM、SGLang和Ollama等主流推理框架,开发者无需额外适配即可快速集成。
应用前景
这一提速优化显著降低了Gemma 4系列模型的应用门槛。开发者如今可以在普通消费级显卡上流畅运行26B MoE和31B稠密模型,也能在移动设备上以更低功耗支撑实时AI交互,推动端侧AI应用的进一步普及。