MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

ElevenLabs 开源 Speech Engine Skill:一行命令实现低延迟实时语音对话

语音 AI 独角兽 ElevenLabs 正式开源 Speech Engine Skill,遵循 Agent Skills 开放规范,开发者通过简单命令即可将高保真、低延迟的语音交互能力集成到 AI 智能体与大语言模型应用中。

References

Speech Engine 架构图
Speech Engine 将语音、转写和语音编排模型整合为一套协同工作的流程 Image source

语音 AI 领域独角兽 ElevenLabs 正式开源了实时语音对话组件 Speech Engine Skill,旨在帮助开发者快速为 AI 智能体与大语言模型(LLM)应用集成高保真、低延迟的语音交互能力。

一行命令即可接入

Speech Engine Skill 遵循 Agent Skills 开放规范,兼容任意符合该规范标准的 AI 编码助手。开发者只需在项目终端中运行 npx skills add elevenlabs/skills 命令,即可将语音引擎添加到项目运行时中,无需对接多套 API 或构建复杂状态机。

核心技术架构

Speech Engine 基于高性能 WebSocket 连接构建,每个连接代表一个通话会话。其工作流程如下:

  1. 音频采集与传输:用户开口说话时,浏览器捕获音频并流式传输给 ElevenLabs
  2. 语音转文字:ElevenLabs 实时完成语音识别(ASR),将文本推送给开发者的服务器
  3. LLM 响应生成:服务器通过大语言模型生成流式文本响应
  4. 语音合成回传:利用 SDK 的 sendResponse()send_response() 函数(支持字符串或异步迭代器)将响应传回,ElevenLabs 将其转换为低延迟合成语音在浏览器中播放

SDK 在后台自动管理网络路由、请求签名校验、心跳检测和会话生命周期,并原生支持**插话打断(interruption)对话轮转(turn-taking)**功能。

多语言与客户端支持

Speech Engine 支持90 多种语言的语音转写,覆盖70 多种语言的自然语音合成。开发者可从 11,000 多个预制声音库中选择,也可通过语音克隆自定义音色。

为了简化前端开发流程,ElevenLabs 同步推出了 @elevenlabs/react@elevenlabs/client 客户端库。前端页面仅需极少代码,配合服务器发放的安全会话凭证,即可快速拉起具备抗噪声与抗打断能力的数字语音助手。

安全建议

ElevenLabs 特别提醒,在实际部署中应将语音识别文本视为不可信输入(untrusted input),建议在服务端配置确定性的安全护栏或意图白名单校验,避免原始语音转写文本直接映射为大模型特权动作或敏感工具调用。

与 ElevenAgents 的区别

值得注意的是,ElevenLabs 同时提供ElevenAgents 全托管平台(由 ElevenLabs 提供 LLM、知识库和工具)。Speech Engine 则更适合希望自带 LLM 并自定义对话逻辑的开发者,提供更高的灵活性。SDK 内置对 OpenAI(Responses API、Chat Completions API)、Anthropic Messages API 和 Google Gemini API 流式提取的原生支持,其他服务商可直接传入字符串或异步字符串流。

GitHub 仓库地址:elevenlabs/skills