小米罗福莉披露MiMo-V2.5降本黑科技:预填充算力降至十层全局GQA级别
结构性降本而非价格战
小米大模型团队负责人罗福莉近日在X平台详解MiMo-V2.5系列的算法降本机制,强调此次API永久降价是结构性成本优化的体现,而非亏本竞争。
罗福莉透露,在API价格对标DeepSeek后,小米高负载推理引擎仍能保持盈亏平衡。成本降低主要来自两大核心技术:混合注意力架构与层次化KV缓存优化。
1:7层间稀疏比:预填充算力骤降
MiMo-V2.5系列采用全局注意力(GA)与滑动窗口注意力(SWA)1:7的层间稀疏比设计。以拥有70层的MiMo-V2.5-Pro为例,在长文本预填充(Prefill)阶段,60层SWA仅计算局部滑动窗口,使得整个模型的注意力计算量仅相当于一个传统10层全局GQA模型的水平。这种超低计算负载大幅降低了原始推理成本。
据小米公开的模型技术文档,MiMo-V2.5系列采用6:1的SWA与GA交错比例,滑动窗口大小为128个Token,通过可学习的注意力池偏置将键值缓存存储空间压缩近7倍,同时保持模型性能不损失。
层次化KV缓存:缓存成本降低80%
针对缓存命中(Cache Hit)场景,小米推理框架实现了针对滑动窗口注意力的层次化KV缓存优化。生产测试显示,该优化将缓存的Token容量提升至5倍,缓存成本降低80%。
此外,系统通过全局注意力模块之间的**缓存读取重叠(Cache Read Overlap)**技术,进一步压低了缓存命中的实际开销,目标实现缓存命中成本降低99%。
价格战背后的技术护城河
罗福莉表示,低成本推理服务有利于激发终端智能需求。大模型企业应避免盲目的价格战,通过算法与推理系统的底层协同设计,将实际运行开销控制在盈亏平衡线以下。
此前,DeepSeek于5月22日宣布V4-Pro模型API价格永久降价75%,缓存命中输入低至每百万Tokens 0.025元人民币。小米随即跟进实施MiMo-V2.5系列永久降价,两个头部玩家的价格策略差异体现了不同的技术路径:DeepSeek侧重纯技术创新,而小米则在算法优化基础上叠加生态规模效应。
作为小米自研大语言模型系列的最新力作,MiMo-V2.5系列包含MiMo-V2.5、MiMo-V2.5-Pro等多个版本,其中MiMo-V2.5-Pro作为旗舰模型拥有1.02万亿参数(42B激活参数),基于混合专家(MoE)架构设计,在通用智能体能力、复杂软件工程等维度已能与全球顶尖模型正面较量。