MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Inworld AI发布Realtime TTS-2:AI语音首次具备实时情绪感知能力

Inworld AI推出新一代实时语音合成模型TTS-2,可根据对话上下文和语气变化动态调整音色与语调,标志着AI语音交互从"念得好听"向"像人一样说话"的范式转变。

References

美国AI初创公司Inworld AI于近日发布全新实时语音合成模型Realtime TTS-2,该模型能够实时感知用户语气与情绪变化,并动态调整语音的音色、语调和节奏,被认为是AI语音交互领域的一次重大突破。

从「念得好听」到「察言观色」

TTS-2在前代产品TTS-1.5的基础上实现了质的飞跃。TTS-1.5此前已在第三方评测平台Artificial Analysis Speech Arena中位列第一,超越谷歌和ElevenLabs等竞争对手。而TTS-2的核心创新在于引入了对话感知能力,模型可直接接收前几轮对话的原始音频而非文字转录,从而能够区分同一句话在不同语境下的情绪差异——例如,同样一句「好吧」,接在笑话后面是释然,接在坏消息后面则可能是无奈或讽刺。

此外,TTS-2还支持自然语言语音指导,开发者可通过一段描述性文字(如「疲惫但温柔,像刚下班到家」)来指定语音风格,无需再从预设的「开心」「悲伤」等固定标签中选择。

跨语言与文字造声能力

该模型还具备跨语言一致性特性,同一声音角色可在100多种语言间无缝切换,甚至支持在一句话中途更换语言,而音色和身份保持不变。另一项创新是文字造声功能,用户仅需提供一段文字描述即可生成可复用的声音角色,无需录制音频样本。

在性能方面,TTS-2实现了TTS层面首个低于200毫秒的音频延迟,首包延迟控制在300毫秒以内,确保对话流畅自然。

商业化与生态布局

TTS-2目前以研究预览形式通过Inworld API和Realtime API开放,支持15种正式语言和90多种实验性语言,已上线Cloudflare、LiveKit、DeepInfra等主流平台。公司CEO Kylan Gibbs此前在接受《Business Insider》采访时表示,Inworld AI专注于模型和API层,不直接面向消费者推出产品,以避免与客户竞争。

公开资料显示,Inworld AI累计融资已超过1亿美元,投资方包括Founders Fund、英特尔和微软等行业巨头。

业界分析认为,TTS-2的发布可能对客服、AI陪伴、教育、虚拟NPC以及AI主播等多个领域产生深远影响,语音交互正从单纯的输出管道转变为具备「存在感」的多模态沟通方式。