5月27日,小米正式宣布MiMo-V2.5系列API价格永久下调,最高降幅达99%,并与DeepSeek V4全系定价完全对齐。这标志着国产大模型厂商正以算法创新为底气,掀起一场以"低成本长上下文"为核心的价格革命。
降价幅度惊人:旗舰模型每百万tokens仅需几厘钱
根据小米官方公告,MiMo-V2.5系列API的输入缓存命中价格降至每百万tokens 0.0036美元(约0.025元人民币),与DeepSeek V4旗舰型号完全一致。未命中输入价格为0.435美元,输出价格为0.87美元。
此前,DeepSeek已于5月22日宣布V4-Pro API永久降至原价的1/4——每百万tokens输入(缓存命中)仅需0.025元,输入(未命中)3元,输出6元,创下全球大模型价格新低。小米此次跟降,意味着两家厂商在API定价上实现了全面对齐,联手将大模型使用成本压至"分"级别。
作为对比,阿里的Qwen3.7-Max虽然也推出了隐式缓存提供80%折扣,但显式缓存面临125%的首次创建溢价,且缓存存活周期仅5分钟,高额溢价与短暂驻留暗示其系统缓存构建开销较大,让利空间有限。
OpenRouter霸榜:DeepSeek V4一个月消耗7.99万亿tokens
5月26日,模型聚合平台OpenRouter公布月度LLM调用量榜单,DeepSeek V4 Flash以上线仅一个月的表现,以7.99万亿tokens的消耗量直接登顶月度第一,V4 Pro也跻身前十。这一数据印证了DeepSeek在开发者群体中的强劲吸引力。
在Cursor、Claude Code等高频读取代码库的AI编程智能体(Agent)场景下,DeepSeek V4凭借高达99%的前缀缓存率,展现出极高的成本效益:使用Pro模型消耗8000万tokens仅需约4元人民币;使用Flash模型单日消耗278亿tokens仅需160美元。这种极致性价比正在加速智能体场景的普及。
算法红利:低成本背后的技术底牌
DeepSeek与小米敢于大幅降价的底气,来自底层算法层面的突破。
DeepSeek V4依靠两项核心技术实现成本压缩:
- 压缩稀疏注意力(CSA):将每4个Token的KV Cache压缩为一个条目,再通过轻量级索引器只对top-k压缩块执行稀疏注意力,序列先被压短,检索效率大幅提升。
- 重度压缩注意力(HCA):对长距离依赖进行更深层压缩。两项技术以交错方式部署在Transformer不同层中。
在100万token推理中,这套方案将推理算力FLOPs降至上一代的27%,KV缓存空间降至10%,相比传统GQA模型缩减超过百倍。
小米MiMo-V2.5-Pro则在1.02T总参数中仅激活4.1%(42B参数),采用:
- 交错堆叠滑动窗口注意力(SWA):对局部信息采用滑动窗口,减少重复计算。
- 全局注意力(GA):补充全局视野,确保长距离依赖不丢失。
该架构将长上下文KV缓存开销降低7倍,配合多token预测(MTP)技术将输出吞吐量提升3倍。
价格战背后的生态博弈
从市场角度看,这轮降价不仅仅是定价策略,更是生态锁定之战。火山引擎方舟平台已同步接入DeepSeek V4 Pro和V4 Flash,推出面向编程场景的Coding Plan和聚合多模型的Agent Plan,通过订阅制进一步降低调用成本。
随着DeepSeek与小米的定价对齐,全球开发者正在被引导向低成本的国产模型生态迁移。以DeepSeek V4当前的价格计算,开发者每年消耗数十亿tokens的成本已从"万美元"级别降至"万元人民币"级别,这为AI应用的大规模落地扫清了最后一道成本障碍。