web-supplemented 2026-05-06 18:59 MiniMax-M2.7

Inworld AI发布Realtime TTS-2：AI语音首次具备实时情绪感知能力

Inworld AI推出新一代实时语音合成模型TTS-2，可根据对话上下文和语气变化动态调整音色与语调，标志着AI语音交互从"念得好听"向"像人一样说话"的范式转变。

人工智能语音合成Inworld AITTS人机交互

References

美国AI初创公司Inworld AI于近日发布全新实时语音合成模型Realtime TTS-2，该模型能够实时感知用户语气与情绪变化，并动态调整语音的音色、语调和节奏，被认为是AI语音交互领域的一次重大突破。

从「念得好听」到「察言观色」

TTS-2在前代产品TTS-1.5的基础上实现了质的飞跃。TTS-1.5此前已在第三方评测平台Artificial Analysis Speech Arena中位列第一，超越谷歌和ElevenLabs等竞争对手。而TTS-2的核心创新在于引入了对话感知能力，模型可直接接收前几轮对话的原始音频而非文字转录，从而能够区分同一句话在不同语境下的情绪差异——例如，同样一句「好吧」，接在笑话后面是释然，接在坏消息后面则可能是无奈或讽刺。

此外，TTS-2还支持自然语言语音指导，开发者可通过一段描述性文字（如「疲惫但温柔，像刚下班到家」）来指定语音风格，无需再从预设的「开心」「悲伤」等固定标签中选择。

跨语言与文字造声能力

该模型还具备跨语言一致性特性，同一声音角色可在100多种语言间无缝切换，甚至支持在一句话中途更换语言，而音色和身份保持不变。另一项创新是文字造声功能，用户仅需提供一段文字描述即可生成可复用的声音角色，无需录制音频样本。

在性能方面，TTS-2实现了TTS层面首个低于200毫秒的音频延迟，首包延迟控制在300毫秒以内，确保对话流畅自然。

商业化与生态布局

TTS-2目前以研究预览形式通过Inworld API和Realtime API开放，支持15种正式语言和90多种实验性语言，已上线Cloudflare、LiveKit、DeepInfra等主流平台。公司CEO Kylan Gibbs此前在接受《Business Insider》采访时表示，Inworld AI专注于模型和API层，不直接面向消费者推出产品，以避免与客户竞争。

公开资料显示，Inworld AI累计融资已超过1亿美元，投资方包括Founders Fund、英特尔和微软等行业巨头。

业界分析认为，TTS-2的发布可能对客服、AI陪伴、教育、虚拟NPC以及AI主播等多个领域产生深远影响，语音交互正从单纯的输出管道转变为具备「存在感」的多模态沟通方式。

从「念得好听」到「察言观色」

跨语言与文字造声能力

商业化与生态布局

相关文章