MTP推理加速方案密集落地:草稿模型时代或将终结
推测解码(Speculative Decoding)并非新概念,其核心思想是先用一个小模型「猜」出后续若干个token,再由主模型批量验证,猜对则跳过,猜错则回退重来。然而传统方案需外挂独立的草稿模型,tokenizer不匹配、词表冲突等问题常令部署复杂化。如今,带原生多Token预测(Multi-Token Prediction, MTP)能力的模型开始独自承担这一角色,将推理加速推向新阶段。
原理:从外挂草稿到内置预测头
MTP的核心在于在主模型中集成若干轻量预测头(Prediction Head),让模型自行预测后续token并自行验证,无需再维护两套独立模型。这解决了传统方案中草稿模型与主模型之间tokenizer、词表、模型族不一致的痛点。
根据技术资料,MTP通过并行预测多个token,将传统的单token自回归生成模式转变为多token生成。验证阶段,主模型同时处理上一轮输出token与预测token,通过拒绝采样(Rejection Sampling)等策略决定是否接受投机token。若奖励token(Bonus Token)被接受,生成速度便可实现成倍提升。
上游模型:MTP已纳入训练目标
主流大模型厂商已将MTP纳入训练流程。DeepSeek-V3技术报告将MTP写入训练目标,相关模块可直接用于推理加速;DeepSeek-V4技术报告延续了同一套MTP modules and objectives;Qwen3.6官方模型卡更是直接提供了SGLang和vLLM的MTP启动命令,降低了实际部署门槛。
下游框架:密集适配进行时
llama.cpp:2025年5月16日合并MTP支持。在Qwen3.6 27B及Qwen3.6 35B-A3B上测试到约75%的稳定接受率,部分配置下生成速度超过基线2倍。不过开启MTP会拖慢prompt处理速度,parallel decoding仍在优化中。
vLLM:将MTP列为speculative decoding方法之一。Qwen3.6官方启动方式为添加参数--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'。vLLM文档明确指出:MTP仅适合原生支持该机制的模型,实际提速效果取决于具体模型和部署条件。
LM Studio:0.4.14 Beta版本已加入MTP Speculative Decoding功能。用户需下载支持MTP的模型,并在高级模型加载设置中手动开启。
Ollama:相对保守,目前仅确认在Mac的MLX runner上支持Gemma 4 MTP,尚未看到对Qwen3.6或通用MTP-GGUF默认加速的明确说明。
展望
MTP的实用化标志着本地推理加速进入新阶段。内置预测头的方案简化了部署复杂度,主流框架的密集跟进正在降低使用门槛。但需注意,MTP对模型本身有要求,非原生支持的模型无法直接享受这一加速红利,且prompt处理性能与并行解码策略仍有优化空间。