MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Gemini 3.2 Flash正式发布:性能接近Pro级,推理成本大幅降低

Google在I/O大会上正式发布Gemini 3.2 Flash轻量级模型,以极具竞争力的价格和低延迟挑战GPT-5.5,性能可达后者的92%而成本仅为其十五到二十分之一。

References

Google在5月19日至20日举行的I/O开发者大会上正式发布了轻量级模型Gemini 3.2 Flash。与旗舰级模型相比,Gemini 3.2 Flash在保持接近Pro级智能的同时,大幅降低了推理延迟和成本,被视为Google在AI大模型商业化方面的重要一步。

根据Abacus.AI CEO Bindu Reddy的测试数据,Gemini 3.2 Flash在编码和推理任务上可达到GPT-5.5约92%的性能水平,但推理成本仅为后者的十五到二十分之一。此外,大多数查询的响应延迟低于200毫秒,这使其在实时应用中具有明显优势。

Gemini 3.2 Flash在正式发布前已有泄露迹象。5月5日,该模型悄然出现在iOS版Gemini应用和Google AI Studio中,定价为每百万输入tokens仅0.25美元,每百万输出tokens约2美元。随后它以匿名身份出现在LM Arena评测榜单上,早期测试者反馈其在创意编码任务上表现突出。

Google官方披露的数据显示,在JetBrains AI Chat和Junie agentic-coding评测中,Gemini 3 Flash展现出接近Gemini 3 Pro的质量,同时拥有显著更低的推理延迟和成本。在SWE-bench Verified测试中,Gemini 3 Flash取得了78%的得分,超越了Gemini 2.5系列和Gemini 3 Pro本身。

业界分析认为,Google采用的蒸馏与稀疏化技术正在发挥重要作用。这两种技术本质上是通过压缩前沿模型来创建Flash级别版本,同时避免了传统压缩方法中常见的"性能悬崖"问题。Google表示,Gemini 3系列的设计理念正是"Pro级智能,Flash级速度和定价"。

随着Gemini 3.2 Flash的正式推出,Google在AI大模型市场的竞争中将拥有更有力的定价筹码,尤其是在需要快速响应和成本敏感的应用场景中。