web-supplemented 2026-05-08 08:06 MiniMax-M2.7

OpenAI 推出三款语音模型：首个具备GPT-5级推理能力的语音API面世

OpenAI在Realtime API中一次性发布三款语音模型，其中GPT-Realtime-2首次将GPT-5级推理能力融入语音交互，并支持128K超长上下文窗口。

openaigpt-5realtime api语音api人工智能语音识别机器翻译

References

GPT-5 API 旗舰模型标志 — GPT-5 API 提供文本与视觉能力，上下文长度达40万 Image source

OpenAI于本周在Realtime API中一次性推出三款语音模型，这是继GPT-5发布以来该公司在多模态AI领域的又一重要布局。

核心产品：GPT-Realtime-2

本次最受关注的是GPT-Realtime-2，这是OpenAI首个将GPT-5级推理能力融入实时语音交互的模型。与前代GPT-Realtime-1.5相比，该模型在音频推理基准（Big Bench Audio）上提升15.2%，多轮对话指令遵循基准（Audio MultiChallenge）提升13.8%。

GPT-Realtime-2在技术层面有三大升级：

推理强度可调：支持minimal到xhigh五档推理强度，开发者可根据应用对延迟的容忍度灵活选择，在响应速度与推理深度之间取得平衡。
上下文窗口大幅扩展：从上代的32K扩展至128K tokens，约可支撑1至2小时的密集语音对话，远超此前版本。
工具调用能力增强：模型可同时调用多个工具，并通过口语化短句（如"帮你查一下日历"）告知用户进度；遇到错误时以"这个暂时有点问题"等自然语言回应，而非直接中断对话。

Zillow AI负责人Josh Weisberg披露，经过提示工程优化后，该模型在最难的对抗性基准测试中，通话成功率从69%跃升至95%，同时公平住房法合规表现也显著改善。

实时翻译与转写

GPT-Realtime-Translate专注于实时语音翻译，支持70余种输入语言翻译为13种输出语言。德国电信已将其用于多语言客服测试。印度语音AI公司BolnaAI的评测显示，该模型在印地语、泰米尔语、泰卢固语等印度主要语言上的词错误率（WER）比此前测过的所有模型低12.5%，展现出对小语种市场的强大适配能力。

GPT-Realtime-Whisper则是一款流式语音转文字模型，支持边说边转，适用于实时字幕生成、会议纪要等场景。

定价策略

三款模型的定价分别为：

GPT-Realtime-2：输入32美元/百万token（缓存输入0.40美元），输出64美元/百万token
GPT-Realtime-Translate：0.034美元/分钟
GPT-Realtime-Whisper：0.017美元/分钟

随着GPT-5旗舰模型正式发布（上下文长度40万、最大输出128K tokens），OpenAI正将其强大的推理能力从文本模态扩展到语音领域。三款新模型现已通过Realtime API向开发者开放，有望在客服、翻译、无障碍服务等专业场景中实现更自然、更智能的人机交互体验。

核心产品：GPT-Realtime-2

实时翻译与转写

定价策略

相关文章