web-supplemented 2026-05-27 22:16 MiniMax-M2.7

小米罗福莉披露MiMo-V2.5降本黑科技：预填充算力降至十层全局GQA级别

小米大模型负责人罗福莉公开MiMo-V2.5系列算法降本机制，通过1:7层间稀疏比与层次化KV缓存优化，实现预填充阶段算力大幅削减，支撑API永久降价策略。

小米MiMo罗福莉大模型API降价注意力机制KV缓存

References

小米罗福莉披露MiMo-V2.5降本黑科技：预填充算力降至十层全局GQA级别

结构性降本而非价格战

小米大模型团队负责人罗福莉近日在X平台详解MiMo-V2.5系列的算法降本机制，强调此次API永久降价是结构性成本优化的体现，而非亏本竞争。

罗福莉透露，在API价格对标DeepSeek后，小米高负载推理引擎仍能保持盈亏平衡。成本降低主要来自两大核心技术：混合注意力架构与层次化KV缓存优化。

1:7层间稀疏比：预填充算力骤降

MiMo-V2.5系列采用全局注意力（GA）与滑动窗口注意力（SWA）1:7的层间稀疏比设计。以拥有70层的MiMo-V2.5-Pro为例，在长文本预填充（Prefill）阶段，60层SWA仅计算局部滑动窗口，使得整个模型的注意力计算量仅相当于一个传统10层全局GQA模型的水平。这种超低计算负载大幅降低了原始推理成本。

据小米公开的模型技术文档，MiMo-V2.5系列采用6:1的SWA与GA交错比例，滑动窗口大小为128个Token，通过可学习的注意力池偏置将键值缓存存储空间压缩近7倍，同时保持模型性能不损失。

层次化KV缓存：缓存成本降低80%

针对缓存命中（Cache Hit）场景，小米推理框架实现了针对滑动窗口注意力的层次化KV缓存优化。生产测试显示，该优化将缓存的Token容量提升至5倍，缓存成本降低80%。

此外，系统通过全局注意力模块之间的**缓存读取重叠（Cache Read Overlap）**技术，进一步压低了缓存命中的实际开销，目标实现缓存命中成本降低99%。

价格战背后的技术护城河

罗福莉表示，低成本推理服务有利于激发终端智能需求。大模型企业应避免盲目的价格战，通过算法与推理系统的底层协同设计，将实际运行开销控制在盈亏平衡线以下。

此前，DeepSeek于5月22日宣布V4-Pro模型API价格永久降价75%，缓存命中输入低至每百万Tokens 0.025元人民币。小米随即跟进实施MiMo-V2.5系列永久降价，两个头部玩家的价格策略差异体现了不同的技术路径：DeepSeek侧重纯技术创新，而小米则在算法优化基础上叠加生态规模效应。

作为小米自研大语言模型系列的最新力作，MiMo-V2.5系列包含MiMo-V2.5、MiMo-V2.5-Pro等多个版本，其中MiMo-V2.5-Pro作为旗舰模型拥有1.02万亿参数（42B激活参数），基于混合专家（MoE）架构设计，在通用智能体能力、复杂软件工程等维度已能与全球顶尖模型正面较量。

小米罗福莉披露MiMo-V2.5降本黑科技：预填充算力降至十层全局GQA级别

结构性降本而非价格战

1:7层间稀疏比：预填充算力骤降

层次化KV缓存：缓存成本降低80%

价格战背后的技术护城河

相关文章