阶跃星辰于近日发布端到端实时语音大模型 StepAudio 2.5 Realtime,主打「活人感」对话体验,支持全维度人设自定义和副语言(语调、停顿、叹息等非语言信号)感知。目前该模型已全量上线开放平台 API。
在2026年4月的官方评测中,StepAudio 2.5 Realtime 在五个维度全部拿下第一。其中最能反映真实体验的主观评测(手机APP真人对话打分)得 80.41分,大幅领先 GPT-Realtime-1.5 的 68.01 分和 Gemini Live 的 67.16 分,领先幅度接近18%。语音问答基准达 79.80分,是 GPT-Realtime-1.5(53.20分)的近1.5倍。其余三项——副语言理解 82.18、通用对话 86.36、车载场景 84.80——也均处于领先位置。
技术设计方面,该模型有三个关键创新:一是通过1万余个原生人设,借助算法裂变出百万级人设特征矩阵,融合大量真实对话语料训练,使模型在长尾小众话题上保持稳定;二是针对角色扮演场景做了专属 RLHF(基于人类反馈的强化学习)对齐,解决 AI 对话中常见的「人设崩塌」问题;三是理解与生成深度融合,继承 StepAudio 2.5 TTS 的表现力,实现全局场景定调与句内细节雕琢。
API 方面,StepAudio 2.5 Realtime 兼容 OpenAI Realtime API 协议(基于 WebSocket),开发者可低成本迁移。定价为输入 10元/百万token(缓存命中仅2元),输出 70元/百万token,估算连续语音通话成本约 3.8元/小时。
值得关注的是,阶跃星辰此前已凭借 Step-Audio-R1.1 在全球权威语音推理榜单 Artificial Analysis Speech Reasoning 上以96.4%的准确率登顶,超越 Grok、Gemini、GPT-Realtime 等主流模型;在2026年 CES 上,搭载阶跃语音大模型的吉利银河M9海外版也因极具真人感的交互效果引发海外热议。