Resemble AI于5月15日在Hugging Face正式开源其全新语音生成模型DramaBox,这是业内首款主打"导演级调度"(Directable)特性的语音引擎。与传统TTS系统输出的机械播报不同,DramaBox能够根据提示词直接生成带有情绪起伏、语气变化和舞台动作感的角色化语音。
分离式提示词:重新定义AI语音表演
DramaBox的核心创新在于分离式提示词控制机制。用户将台词置于半角双引号内,而在引号外直接输入叹气、停顿、低语、声音颤抖等舞台动作指令。模型不会将这些动作词读出,而是将其渲染为真实的物理发声效果。这一设计让AI语音从简单的文字转语音升级为真正的角色表演,可直接替代影视、游戏等内容创作中原本依赖真人配音或繁琐后期的复杂工作流。
例如,提示词可以是:
"这是一场必输的战役。" 他叹了口气,声音因悲伤而沙哑。
技术规格与架构
DramaBox基于Lightricks的33亿参数LTX-2.3音频大模型进行微调,采用扩散Transformer(DiT)与流匹配(Flow Matching)架构,并接入Google的Gemma 3 12B模型处理文本嵌入。
该模型具备以下核心能力:
- 零样本音色克隆:仅需10秒参考音频即可锁定目标音色;无参考时,模型会根据描述自动匹配适合的声线
- 自然语言控制:支持通过提示词直接设定角色的年龄、口音与情绪状态
- 录音室级输出:原生支持48kHz立体声音频
- 参考时长灵活调整:支持3-30秒参考音频,平均默认时长为10秒
安全与溯源:PerTh隐形水印
针对深度伪造风险,DramaBox在生成阶段即内置PerTh不可见水印。该水印可抵抗MP3压缩及常规音频编辑操作,确保每段生成音频均可追溯来源,满足负责任AI开发的安全标准。
开源意义与适用场景
DramaBox的开源填补了情绪夸张控制开源TTS领域的空白。除影视、游戏配音外,该模型同样适用于AI Agent语音交互、有声书旁白、虚拟主播等场景。随着开源开放,开发者可基于Hugging Face平台直接调用模型,降低了情绪化语音生成的落地门槛。