web-supplemented 2026-05-27 12:51 MiniMax-M2.7

DeepSeek与小米联手掀起大模型价格革命：百万上下文API进入"分"时代

DeepSeek与小米相继宣布API永久降价高达99%，通过CSA/HCA与SWA/GA等算法创新，将百万token上下文推理成本压缩至接近零，大模型价格战进入全新阶段。

deepseek小米大模型api价格战ai竞赛context-window

References

5月27日，小米正式宣布MiMo-V2.5系列API价格永久下调，最高降幅达99%，并与DeepSeek V4全系定价完全对齐。这标志着国产大模型厂商正以算法创新为底气，掀起一场以"低成本长上下文"为核心的价格革命。

降价幅度惊人：旗舰模型每百万tokens仅需几厘钱

根据小米官方公告，MiMo-V2.5系列API的输入缓存命中价格降至每百万tokens 0.0036美元（约0.025元人民币），与DeepSeek V4旗舰型号完全一致。未命中输入价格为0.435美元，输出价格为0.87美元。

此前，DeepSeek已于5月22日宣布V4-Pro API永久降至原价的1/4——每百万tokens输入（缓存命中）仅需0.025元，输入（未命中）3元，输出6元，创下全球大模型价格新低。小米此次跟降，意味着两家厂商在API定价上实现了全面对齐，联手将大模型使用成本压至"分"级别。

作为对比，阿里的Qwen3.7-Max虽然也推出了隐式缓存提供80%折扣，但显式缓存面临125%的首次创建溢价，且缓存存活周期仅5分钟，高额溢价与短暂驻留暗示其系统缓存构建开销较大，让利空间有限。

OpenRouter霸榜：DeepSeek V4一个月消耗7.99万亿tokens

5月26日，模型聚合平台OpenRouter公布月度LLM调用量榜单，DeepSeek V4 Flash以上线仅一个月的表现，以7.99万亿tokens的消耗量直接登顶月度第一，V4 Pro也跻身前十。这一数据印证了DeepSeek在开发者群体中的强劲吸引力。

在Cursor、Claude Code等高频读取代码库的AI编程智能体（Agent）场景下，DeepSeek V4凭借高达99%的前缀缓存率，展现出极高的成本效益：使用Pro模型消耗8000万tokens仅需约4元人民币；使用Flash模型单日消耗278亿tokens仅需160美元。这种极致性价比正在加速智能体场景的普及。

算法红利：低成本背后的技术底牌

DeepSeek与小米敢于大幅降价的底气，来自底层算法层面的突破。

DeepSeek V4依靠两项核心技术实现成本压缩：

压缩稀疏注意力（CSA）：将每4个Token的KV Cache压缩为一个条目，再通过轻量级索引器只对top-k压缩块执行稀疏注意力，序列先被压短，检索效率大幅提升。
重度压缩注意力（HCA）：对长距离依赖进行更深层压缩。两项技术以交错方式部署在Transformer不同层中。

在100万token推理中，这套方案将推理算力FLOPs降至上一代的27%，KV缓存空间降至10%，相比传统GQA模型缩减超过百倍。

小米MiMo-V2.5-Pro则在1.02T总参数中仅激活4.1%（42B参数），采用：

交错堆叠滑动窗口注意力（SWA）：对局部信息采用滑动窗口，减少重复计算。
全局注意力（GA）：补充全局视野，确保长距离依赖不丢失。

该架构将长上下文KV缓存开销降低7倍，配合多token预测（MTP）技术将输出吞吐量提升3倍。

价格战背后的生态博弈

从市场角度看，这轮降价不仅仅是定价策略，更是生态锁定之战。火山引擎方舟平台已同步接入DeepSeek V4 Pro和V4 Flash，推出面向编程场景的Coding Plan和聚合多模型的Agent Plan，通过订阅制进一步降低调用成本。

随着DeepSeek与小米的定价对齐，全球开发者正在被引导向低成本的国产模型生态迁移。以DeepSeek V4当前的价格计算，开发者每年消耗数十亿tokens的成本已从"万美元"级别降至"万元人民币"级别，这为AI应用的大规模落地扫清了最后一道成本障碍。

降价幅度惊人：旗舰模型每百万tokens仅需几厘钱

OpenRouter霸榜：DeepSeek V4一个月消耗7.99万亿tokens

算法红利：低成本背后的技术底牌

价格战背后的生态博弈

相关文章