web-supplemented 2026-05-08 08:07 MiniMax-M2.7

谷歌Gemini 3.1 Flash-Lite正式发布：低成本高速度重新定义轻量级AI模型

谷歌宣布Gemini 3.1 Flash-Lite正式GA，作为Gemini 3系列中最经济高效的模型，其输入价格仅为Claude 4.5 Haiku的四分之一，同时在GPQA科学推理测试中高出近14个百分点。

谷歌gemini人工智能大模型云计算

References

Gemini系列模型Logo Image source

谷歌于5月正式宣布Gemini 3.1 Flash-Lite结束预览期，以正式版（GA）姿态进入高并发生产环境。这是Gemini 3系列中定位最经济、轻量化的成员，主打「规模化智能」概念，专为高吞吐量、低延迟场景设计。

定价策略：重新定义轻量模型性价比

Gemini 3.1 Flash-Lite维持预览期定价：输入token仅0.25美元/百万，输出token为1.50美元/百万。与同级别竞品相比，价格优势显著——输入价格是Anthropic Claude 4.5 Haiku的四分之一（0.25 vs 1.00美元），输出价格不到三分之一（1.50 vs 5.00美元）。与谷歌自家前代Gemini 2.5 Flash相比，输入成本再降17%，输出成本大幅下调60%。

推理控制：四档思考强度灵活切换

该模型标配扩展思考（Expanded Thinking）功能，用户可在minimal、low、medium、high四个推理强度档位间切换，灵活平衡响应速度与输出质量。这一设计让同一模型可适配从简单问答到复杂推理的多元场景，降低企业模型选型复杂度。

性能表现：跨级超越竞品

尽管定位轻量级，Flash-Lite在多项关键基准上实现越级表现：

GPQA Diamond（研究生级科学问答）：86.9%，大幅领先Claude 4.5 Haiku的73.0%和GPT-5 mini的82.3%
MMMU-Pro（多模态理解推理）：76.8%，同样领先同档位对手
输出速度：363 tokens/s，较2.5 Flash提升45%，首token响应速度提升2.5倍
Arena.ai排行榜：Elo得分1432

不过在编程任务（LiveCodeBench）中，72.0%的得分仍落后于GPT-5 mini的80.4%，这是其相对短板所在。

企业应用：多场景落地验证

多家企业已在生产环境验证了该模型能力：

客服平台Gladly：驱动文本渠道AI agent，每周处理数百万次客户交互，成本较同等思考级别模型降低约60%，p95延迟控制在1.8秒，成功率达99.6%
JetBrains：为IDE AI助手及Junie agent提供底层能力
金融操作平台Ramp：承担高频、延迟敏感场景任务

Gemini 3.1 Flash-Lite现已通过Google Cloud Vertex AI和Gemini API全面可用，上下文窗口维持100万token，为大规模AI应用部署提供了兼具成本与性能的新选择。

定价策略：重新定义轻量模型性价比

推理控制：四档思考强度灵活切换

性能表现：跨级超越竞品

企业应用：多场景落地验证

相关文章