web-supplemented 2026-05-14 14:09 MiniMax-M2.7

Gemini 3.2 Flash正式发布：性能接近Pro级，推理成本大幅降低

Google在I/O大会上正式发布Gemini 3.2 Flash轻量级模型，以极具竞争力的价格和低延迟挑战GPT-5.5，性能可达后者的92%而成本仅为其十五到二十分之一。

googlegeminiailarge-language-modelopenaii/o-2026

References

Google在5月19日至20日举行的I/O开发者大会上正式发布了轻量级模型Gemini 3.2 Flash。与旗舰级模型相比，Gemini 3.2 Flash在保持接近Pro级智能的同时，大幅降低了推理延迟和成本，被视为Google在AI大模型商业化方面的重要一步。

根据Abacus.AI CEO Bindu Reddy的测试数据，Gemini 3.2 Flash在编码和推理任务上可达到GPT-5.5约92%的性能水平，但推理成本仅为后者的十五到二十分之一。此外，大多数查询的响应延迟低于200毫秒，这使其在实时应用中具有明显优势。

Gemini 3.2 Flash在正式发布前已有泄露迹象。5月5日，该模型悄然出现在iOS版Gemini应用和Google AI Studio中，定价为每百万输入tokens仅0.25美元，每百万输出tokens约2美元。随后它以匿名身份出现在LM Arena评测榜单上，早期测试者反馈其在创意编码任务上表现突出。

Google官方披露的数据显示，在JetBrains AI Chat和Junie agentic-coding评测中，Gemini 3 Flash展现出接近Gemini 3 Pro的质量，同时拥有显著更低的推理延迟和成本。在SWE-bench Verified测试中，Gemini 3 Flash取得了78%的得分，超越了Gemini 2.5系列和Gemini 3 Pro本身。

业界分析认为，Google采用的蒸馏与稀疏化技术正在发挥重要作用。这两种技术本质上是通过压缩前沿模型来创建Flash级别版本，同时避免了传统压缩方法中常见的"性能悬崖"问题。Google表示，Gemini 3系列的设计理念正是"Pro级智能，Flash级速度和定价"。

随着Gemini 3.2 Flash的正式推出，Google在AI大模型市场的竞争中将拥有更有力的定价筹码，尤其是在需要快速响应和成本敏感的应用场景中。

相关文章