web-supplemented 2026-05-15 14:13 MiniMax-M2.7

Resemble AI开源DramaBox：首款导演级可控语音模型，支持情绪化台词表演

Resemble AI在Hugging Face开源DramaBox语音模型，通过分离式提示词机制让AI实现带有情绪、停顿、语气变化的角色化语音表演，降低影视游戏配音门槛。

ai语音合成开源ttsresemble-aidramabox

References

DramaBox模型封面 — DramaBox是Resemble AI在Hugging Face开源的首个导演级可控语音模型 Image source

Resemble AI于5月15日在Hugging Face正式开源其全新语音生成模型DramaBox，这是业内首款主打"导演级调度"（Directable）特性的语音引擎。与传统TTS系统输出的机械播报不同，DramaBox能够根据提示词直接生成带有情绪起伏、语气变化和舞台动作感的角色化语音。

分离式提示词：重新定义AI语音表演

DramaBox的核心创新在于分离式提示词控制机制。用户将台词置于半角双引号内，而在引号外直接输入叹气、停顿、低语、声音颤抖等舞台动作指令。模型不会将这些动作词读出，而是将其渲染为真实的物理发声效果。这一设计让AI语音从简单的文字转语音升级为真正的角色表演，可直接替代影视、游戏等内容创作中原本依赖真人配音或繁琐后期的复杂工作流。

例如，提示词可以是：

"这是一场必输的战役。" 他叹了口气，声音因悲伤而沙哑。

技术规格与架构

DramaBox基于Lightricks的33亿参数LTX-2.3音频大模型进行微调，采用扩散Transformer（DiT）与流匹配（Flow Matching）架构，并接入Google的Gemma 3 12B模型处理文本嵌入。

该模型具备以下核心能力：

零样本音色克隆：仅需10秒参考音频即可锁定目标音色；无参考时，模型会根据描述自动匹配适合的声线
自然语言控制：支持通过提示词直接设定角色的年龄、口音与情绪状态
录音室级输出：原生支持48kHz立体声音频
参考时长灵活调整：支持3-30秒参考音频，平均默认时长为10秒

安全与溯源：PerTh隐形水印

针对深度伪造风险，DramaBox在生成阶段即内置PerTh不可见水印。该水印可抵抗MP3压缩及常规音频编辑操作，确保每段生成音频均可追溯来源，满足负责任AI开发的安全标准。

开源意义与适用场景

DramaBox的开源填补了情绪夸张控制开源TTS领域的空白。除影视、游戏配音外，该模型同样适用于AI Agent语音交互、有声书旁白、虚拟主播等场景。随着开源开放，开发者可基于Hugging Face平台直接调用模型，降低了情绪化语音生成的落地门槛。

分离式提示词：重新定义AI语音表演

技术规格与架构

安全与溯源：PerTh隐形水印

开源意义与适用场景

相关文章