MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

小米开源ControlFoley:让AI视频配音从「听天由命」到「随心所欲」

小米大模型应用团队发布开源视频音效生成框架ControlFoley,通过「时间-音色解耦」策略实现声音风格精确控制,多项指标达到开源SOTA水平。

References

ControlFoley声音导演框架示意
ControlFoley让创作者可以精确控制视频音效风格 Image source

小米发布开源视频音效框架ControlFoley,实现声音风格「指哪打哪」

小米大模型应用团队正式发布并开源视频音效生成框架ControlFoley,为AI视频配音领域带来全新的「可控性」解决方案。该项目基于arXiv论文 2604.15086,技术报告、代码、模型权重及Demo均已开放获取。

从「听天由命」到「随心所欲」

传统AI视频配音主要依赖模型根据画面内容自动推测声音,创作者往往只能被动接受生成结果,难以精确控制声音的风格走向。ControlFoley的核心突破在于实现了多模态可控生成:既支持传统的画面配音,也能接受文字描述或参考音频输入,让声音按照创作者的意图精准生成。

举例而言,创作者可以轻松将视频中的敲门声改造成「金属敲击声」,或用打鼓的音色去匹配网球击打动作——模型在保持音画同步的同时,能够完美贴合指定的风格要求。

核心技术:「时间-音色解耦」

ControlFoley的底层架构基于CAV-MAE时空音视频编码器改造,并创新性地引入「时间-音色解耦」策略。这一策略的核心思路是将声音生成的「时间维度」交给视频画面(何时发生声音),而将「音色风格维度」交给参考音频(以什么样的风格呈现)。两者解耦后协同工作,既保证了声音与画面的精准同步,又给予创作者充分的风格调控空间。

开源SOTA表现

在论文设定的多任务评估中,ControlFoley在多个常规视频配音测试上达到**开源SOTA(State-of-the-Art)**水平。值得注意的是,即使文字指令与画面内容发生强冲突,模型仍能兼顾文本遵循和时间同步两大能力。

与商业闭源系统Kling-Foley对比,ControlFoley在语义对齐、同步精度和感知质量等多项指标上展现出竞争力。不过在Kling-Audio-Eval和MovieGen-Audio-Bench的部分KL散度匹配指标上仍存在一定差距,为后续优化留有空间。

丰富音频创作工具链

这并非小米首次在AI音频领域发力。就在今年4月,小米MiMo-V2.5语音模型系列一口气发布4款模型——包括TTS语音合成、VoiceDesign语音设计、VoiceClone语音克隆,以及MiMo-V2.5-ASR语音识别基座模型,形成完整的音频创作工具链。用户可以通过自然语言描述生成全新音色,支持年龄、性别、口音、音质等任意维度定制。

小米MiMo大模型负责人罗福莉(原DeepSeek核心成员)近期透露,MiMo V2.5 Pro在Claw-Eval基准测试中已升至第3名,充分展现了团队在AI语音领域的持续深耕。

目前,ControlFoley的技术报告、代码、模型权重和Demo均已在项目主页开放,开发者可前往获取并体验这一「声音导演」工具。


来源:智源社区、新浪科技、arXiv