MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Resemble AI开源DramaBox:首款导演级可控语音模型,支持情绪化台词表演

Resemble AI在Hugging Face开源DramaBox语音模型,通过分离式提示词机制让AI实现带有情绪、停顿、语气变化的角色化语音表演,降低影视游戏配音门槛。

References

DramaBox模型封面
DramaBox是Resemble AI在Hugging Face开源的首个导演级可控语音模型 Image source

Resemble AI于5月15日在Hugging Face正式开源其全新语音生成模型DramaBox,这是业内首款主打"导演级调度"(Directable)特性的语音引擎。与传统TTS系统输出的机械播报不同,DramaBox能够根据提示词直接生成带有情绪起伏、语气变化和舞台动作感的角色化语音。

分离式提示词:重新定义AI语音表演

DramaBox的核心创新在于分离式提示词控制机制。用户将台词置于半角双引号内,而在引号外直接输入叹气、停顿、低语、声音颤抖等舞台动作指令。模型不会将这些动作词读出,而是将其渲染为真实的物理发声效果。这一设计让AI语音从简单的文字转语音升级为真正的角色表演,可直接替代影视、游戏等内容创作中原本依赖真人配音或繁琐后期的复杂工作流。

例如,提示词可以是:

"这是一场必输的战役。" 他叹了口气,声音因悲伤而沙哑。

技术规格与架构

DramaBox基于Lightricks的33亿参数LTX-2.3音频大模型进行微调,采用扩散Transformer(DiT)与流匹配(Flow Matching)架构,并接入Google的Gemma 3 12B模型处理文本嵌入。

该模型具备以下核心能力:

  • 零样本音色克隆:仅需10秒参考音频即可锁定目标音色;无参考时,模型会根据描述自动匹配适合的声线
  • 自然语言控制:支持通过提示词直接设定角色的年龄、口音与情绪状态
  • 录音室级输出:原生支持48kHz立体声音频
  • 参考时长灵活调整:支持3-30秒参考音频,平均默认时长为10秒

安全与溯源:PerTh隐形水印

针对深度伪造风险,DramaBox在生成阶段即内置PerTh不可见水印。该水印可抵抗MP3压缩及常规音频编辑操作,确保每段生成音频均可追溯来源,满足负责任AI开发的安全标准。

开源意义与适用场景

DramaBox的开源填补了情绪夸张控制开源TTS领域的空白。除影视、游戏配音外,该模型同样适用于AI Agent语音交互、有声书旁白、虚拟主播等场景。随着开源开放,开发者可基于Hugging Face平台直接调用模型,降低了情绪化语音生成的落地门槛。