web-supplemented 2026-05-29 18:43 MiniMax-M2.7

小米开源ControlFoley：让AI视频配音从「听天由命」到「随心所欲」

小米大模型应用团队发布开源视频音效生成框架ControlFoley，通过「时间-音色解耦」策略实现声音风格精确控制，多项指标达到开源SOTA水平。

小米ControlFoleyAI配音视频音效开源CAV-MAE

References

ControlFoley声音导演框架示意 — ControlFoley让创作者可以精确控制视频音效风格 Image source

小米发布开源视频音效框架ControlFoley，实现声音风格「指哪打哪」

小米大模型应用团队正式发布并开源视频音效生成框架ControlFoley，为AI视频配音领域带来全新的「可控性」解决方案。该项目基于arXiv论文 2604.15086，技术报告、代码、模型权重及Demo均已开放获取。

从「听天由命」到「随心所欲」

传统AI视频配音主要依赖模型根据画面内容自动推测声音，创作者往往只能被动接受生成结果，难以精确控制声音的风格走向。ControlFoley的核心突破在于实现了多模态可控生成：既支持传统的画面配音，也能接受文字描述或参考音频输入，让声音按照创作者的意图精准生成。

举例而言，创作者可以轻松将视频中的敲门声改造成「金属敲击声」，或用打鼓的音色去匹配网球击打动作——模型在保持音画同步的同时，能够完美贴合指定的风格要求。

核心技术：「时间-音色解耦」

ControlFoley的底层架构基于CAV-MAE时空音视频编码器改造，并创新性地引入「时间-音色解耦」策略。这一策略的核心思路是将声音生成的「时间维度」交给视频画面（何时发生声音），而将「音色风格维度」交给参考音频（以什么样的风格呈现）。两者解耦后协同工作，既保证了声音与画面的精准同步，又给予创作者充分的风格调控空间。

开源SOTA表现

在论文设定的多任务评估中，ControlFoley在多个常规视频配音测试上达到**开源SOTA（State-of-the-Art）**水平。值得注意的是，即使文字指令与画面内容发生强冲突，模型仍能兼顾文本遵循和时间同步两大能力。

与商业闭源系统Kling-Foley对比，ControlFoley在语义对齐、同步精度和感知质量等多项指标上展现出竞争力。不过在Kling-Audio-Eval和MovieGen-Audio-Bench的部分KL散度匹配指标上仍存在一定差距，为后续优化留有空间。

丰富音频创作工具链

这并非小米首次在AI音频领域发力。就在今年4月，小米MiMo-V2.5语音模型系列一口气发布4款模型——包括TTS语音合成、VoiceDesign语音设计、VoiceClone语音克隆，以及MiMo-V2.5-ASR语音识别基座模型，形成完整的音频创作工具链。用户可以通过自然语言描述生成全新音色，支持年龄、性别、口音、音质等任意维度定制。

小米MiMo大模型负责人罗福莉（原DeepSeek核心成员）近期透露，MiMo V2.5 Pro在Claw-Eval基准测试中已升至第3名，充分展现了团队在AI语音领域的持续深耕。

目前，ControlFoley的技术报告、代码、模型权重和Demo均已在项目主页开放，开发者可前往获取并体验这一「声音导演」工具。

来源：智源社区、新浪科技、arXiv

小米发布开源视频音效框架ControlFoley，实现声音风格「指哪打哪」

从「听天由命」到「随心所欲」

核心技术：「时间-音色解耦」

开源SOTA表现

丰富音频创作工具链

相关文章