web-supplemented 2026-05-21 19:14 MiniMax-M2.7

MTP推理加速方案密集落地：草稿模型时代或将终结

多Token预测（MTP）技术正在从研究走向实用化，主流推理框架密集适配，生成速度最高可提升2倍以上。

mtp多token预测推测解码llm推理vllmllama.cppqwen3.6deepseek

References

MTP推理加速方案密集落地：草稿模型时代或将终结

推测解码（Speculative Decoding）并非新概念，其核心思想是先用一个小模型「猜」出后续若干个token，再由主模型批量验证，猜对则跳过，猜错则回退重来。然而传统方案需外挂独立的草稿模型，tokenizer不匹配、词表冲突等问题常令部署复杂化。如今，带原生多Token预测（Multi-Token Prediction, MTP）能力的模型开始独自承担这一角色，将推理加速推向新阶段。

原理：从外挂草稿到内置预测头

MTP的核心在于在主模型中集成若干轻量预测头（Prediction Head），让模型自行预测后续token并自行验证，无需再维护两套独立模型。这解决了传统方案中草稿模型与主模型之间tokenizer、词表、模型族不一致的痛点。

根据技术资料，MTP通过并行预测多个token，将传统的单token自回归生成模式转变为多token生成。验证阶段，主模型同时处理上一轮输出token与预测token，通过拒绝采样（Rejection Sampling）等策略决定是否接受投机token。若奖励token（Bonus Token）被接受，生成速度便可实现成倍提升。

上游模型：MTP已纳入训练目标

主流大模型厂商已将MTP纳入训练流程。DeepSeek-V3技术报告将MTP写入训练目标，相关模块可直接用于推理加速；DeepSeek-V4技术报告延续了同一套MTP modules and objectives；Qwen3.6官方模型卡更是直接提供了SGLang和vLLM的MTP启动命令，降低了实际部署门槛。

下游框架：密集适配进行时

llama.cpp：2025年5月16日合并MTP支持。在Qwen3.6 27B及Qwen3.6 35B-A3B上测试到约75%的稳定接受率，部分配置下生成速度超过基线2倍。不过开启MTP会拖慢prompt处理速度，parallel decoding仍在优化中。

vLLM：将MTP列为speculative decoding方法之一。Qwen3.6官方启动方式为添加参数--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'。vLLM文档明确指出：MTP仅适合原生支持该机制的模型，实际提速效果取决于具体模型和部署条件。

LM Studio：0.4.14 Beta版本已加入MTP Speculative Decoding功能。用户需下载支持MTP的模型，并在高级模型加载设置中手动开启。

Ollama：相对保守，目前仅确认在Mac的MLX runner上支持Gemma 4 MTP，尚未看到对Qwen3.6或通用MTP-GGUF默认加速的明确说明。

展望

MTP的实用化标志着本地推理加速进入新阶段。内置预测头的方案简化了部署复杂度，主流框架的密集跟进正在降低使用门槛。但需注意，MTP对模型本身有要求，非原生支持的模型无法直接享受这一加速红利，且prompt处理性能与并行解码策略仍有优化空间。

MTP推理加速方案密集落地：草稿模型时代或将终结

原理：从外挂草稿到内置预测头

上游模型：MTP已纳入训练目标

下游框架：密集适配进行时

展望

相关文章