web-supplemented 2026-05-08 22:24 MiniMax-M2.7

阶跃星辰发布StepAudio 2.5 Realtime：主观体验评分超GPT-Realtime-1.5近18%

阶跃星辰推出端到端实时语音大模型StepAudio 2.5 Realtime，在五项评测中全部第一，主观体验得分80.41，超越GPT-Realtime-1.5近18个百分点。

阶跃星辰StepAudio语音大模型实时对话AI

References

阶跃星辰于近日发布端到端实时语音大模型 StepAudio 2.5 Realtime，主打「活人感」对话体验，支持全维度人设自定义和副语言（语调、停顿、叹息等非语言信号）感知。目前该模型已全量上线开放平台 API。

在2026年4月的官方评测中，StepAudio 2.5 Realtime 在五个维度全部拿下第一。其中最能反映真实体验的主观评测（手机APP真人对话打分）得 80.41分，大幅领先 GPT-Realtime-1.5 的 68.01 分和 Gemini Live 的 67.16 分，领先幅度接近18%。语音问答基准达 79.80分，是 GPT-Realtime-1.5（53.20分）的近1.5倍。其余三项——副语言理解 82.18、通用对话 86.36、车载场景 84.80——也均处于领先位置。

技术设计方面，该模型有三个关键创新：一是通过1万余个原生人设，借助算法裂变出百万级人设特征矩阵，融合大量真实对话语料训练，使模型在长尾小众话题上保持稳定；二是针对角色扮演场景做了专属 RLHF（基于人类反馈的强化学习）对齐，解决 AI 对话中常见的「人设崩塌」问题；三是理解与生成深度融合，继承 StepAudio 2.5 TTS 的表现力，实现全局场景定调与句内细节雕琢。

API 方面，StepAudio 2.5 Realtime 兼容 OpenAI Realtime API 协议（基于 WebSocket），开发者可低成本迁移。定价为输入 10元/百万token（缓存命中仅2元），输出 70元/百万token，估算连续语音通话成本约 3.8元/小时。

值得关注的是，阶跃星辰此前已凭借 Step-Audio-R1.1 在全球权威语音推理榜单 Artificial Analysis Speech Reasoning 上以96.4%的准确率登顶，超越 Grok、Gemini、GPT-Realtime 等主流模型；在2026年 CES 上，搭载阶跃语音大模型的吉利银河M9海外版也因极具真人感的交互效果引发海外热议。

相关文章