MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

谷歌Gemini 3.1 Flash-Lite正式发布:低成本高速度重新定义轻量级AI模型

谷歌宣布Gemini 3.1 Flash-Lite正式GA,作为Gemini 3系列中最经济高效的模型,其输入价格仅为Claude 4.5 Haiku的四分之一,同时在GPQA科学推理测试中高出近14个百分点。

References

Gemini logo
Gemini系列模型Logo Image source

谷歌于5月正式宣布Gemini 3.1 Flash-Lite结束预览期,以正式版(GA)姿态进入高并发生产环境。这是Gemini 3系列中定位最经济、轻量化的成员,主打「规模化智能」概念,专为高吞吐量、低延迟场景设计。

定价策略:重新定义轻量模型性价比

Gemini 3.1 Flash-Lite维持预览期定价:输入token仅0.25美元/百万,输出token为1.50美元/百万。与同级别竞品相比,价格优势显著——输入价格是Anthropic Claude 4.5 Haiku的四分之一(0.25 vs 1.00美元),输出价格不到三分之一(1.50 vs 5.00美元)。与谷歌自家前代Gemini 2.5 Flash相比,输入成本再降17%,输出成本大幅下调60%。

推理控制:四档思考强度灵活切换

该模型标配扩展思考(Expanded Thinking)功能,用户可在minimal、low、medium、high四个推理强度档位间切换,灵活平衡响应速度与输出质量。这一设计让同一模型可适配从简单问答到复杂推理的多元场景,降低企业模型选型复杂度。

性能表现:跨级超越竞品

尽管定位轻量级,Flash-Lite在多项关键基准上实现越级表现:

  • GPQA Diamond(研究生级科学问答):86.9%,大幅领先Claude 4.5 Haiku的73.0%和GPT-5 mini的82.3%
  • MMMU-Pro(多模态理解推理):76.8%,同样领先同档位对手
  • 输出速度:363 tokens/s,较2.5 Flash提升45%,首token响应速度提升2.5倍
  • Arena.ai排行榜:Elo得分1432

不过在编程任务(LiveCodeBench)中,72.0%的得分仍落后于GPT-5 mini的80.4%,这是其相对短板所在。

企业应用:多场景落地验证

多家企业已在生产环境验证了该模型能力:

  • 客服平台Gladly:驱动文本渠道AI agent,每周处理数百万次客户交互,成本较同等思考级别模型降低约60%,p95延迟控制在1.8秒,成功率达99.6%
  • JetBrains:为IDE AI助手及Junie agent提供底层能力
  • 金融操作平台Ramp:承担高频、延迟敏感场景任务

Gemini 3.1 Flash-Lite现已通过Google Cloud Vertex AI和Gemini API全面可用,上下文窗口维持100万token,为大规模AI应用部署提供了兼具成本与性能的新选择。