OpenAI于本周在Realtime API中一次性推出三款语音模型,这是继GPT-5发布以来该公司在多模态AI领域的又一重要布局。
核心产品:GPT-Realtime-2
本次最受关注的是GPT-Realtime-2,这是OpenAI首个将GPT-5级推理能力融入实时语音交互的模型。与前代GPT-Realtime-1.5相比,该模型在音频推理基准(Big Bench Audio)上提升15.2%,多轮对话指令遵循基准(Audio MultiChallenge)提升13.8%。
GPT-Realtime-2在技术层面有三大升级:
推理强度可调:支持minimal到xhigh五档推理强度,开发者可根据应用对延迟的容忍度灵活选择,在响应速度与推理深度之间取得平衡。
上下文窗口大幅扩展:从上代的32K扩展至128K tokens,约可支撑1至2小时的密集语音对话,远超此前版本。
工具调用能力增强:模型可同时调用多个工具,并通过口语化短句(如"帮你查一下日历")告知用户进度;遇到错误时以"这个暂时有点问题"等自然语言回应,而非直接中断对话。
Zillow AI负责人Josh Weisberg披露,经过提示工程优化后,该模型在最难的对抗性基准测试中,通话成功率从69%跃升至95%,同时公平住房法合规表现也显著改善。
实时翻译与转写
GPT-Realtime-Translate专注于实时语音翻译,支持70余种输入语言翻译为13种输出语言。德国电信已将其用于多语言客服测试。印度语音AI公司BolnaAI的评测显示,该模型在印地语、泰米尔语、泰卢固语等印度主要语言上的词错误率(WER)比此前测过的所有模型低12.5%,展现出对小语种市场的强大适配能力。
GPT-Realtime-Whisper则是一款流式语音转文字模型,支持边说边转,适用于实时字幕生成、会议纪要等场景。
定价策略
三款模型的定价分别为:
- GPT-Realtime-2:输入32美元/百万token(缓存输入0.40美元),输出64美元/百万token
- GPT-Realtime-Translate:0.034美元/分钟
- GPT-Realtime-Whisper:0.017美元/分钟
随着GPT-5旗舰模型正式发布(上下文长度40万、最大输出128K tokens),OpenAI正将其强大的推理能力从文本模态扩展到语音领域。三款新模型现已通过Realtime API向开发者开放,有望在客服、翻译、无障碍服务等专业场景中实现更自然、更智能的人机交互体验。