语音 AI 领域独角兽 ElevenLabs 正式开源了实时语音对话组件 Speech Engine Skill,旨在帮助开发者快速为 AI 智能体与大语言模型(LLM)应用集成高保真、低延迟的语音交互能力。
一行命令即可接入
Speech Engine Skill 遵循 Agent Skills 开放规范,兼容任意符合该规范标准的 AI 编码助手。开发者只需在项目终端中运行 npx skills add elevenlabs/skills 命令,即可将语音引擎添加到项目运行时中,无需对接多套 API 或构建复杂状态机。
核心技术架构
Speech Engine 基于高性能 WebSocket 连接构建,每个连接代表一个通话会话。其工作流程如下:
- 音频采集与传输:用户开口说话时,浏览器捕获音频并流式传输给 ElevenLabs
- 语音转文字:ElevenLabs 实时完成语音识别(ASR),将文本推送给开发者的服务器
- LLM 响应生成:服务器通过大语言模型生成流式文本响应
- 语音合成回传:利用 SDK 的
sendResponse()或send_response()函数(支持字符串或异步迭代器)将响应传回,ElevenLabs 将其转换为低延迟合成语音在浏览器中播放
SDK 在后台自动管理网络路由、请求签名校验、心跳检测和会话生命周期,并原生支持**插话打断(interruption)与对话轮转(turn-taking)**功能。
多语言与客户端支持
Speech Engine 支持90 多种语言的语音转写,覆盖70 多种语言的自然语音合成。开发者可从 11,000 多个预制声音库中选择,也可通过语音克隆自定义音色。
为了简化前端开发流程,ElevenLabs 同步推出了 @elevenlabs/react 与 @elevenlabs/client 客户端库。前端页面仅需极少代码,配合服务器发放的安全会话凭证,即可快速拉起具备抗噪声与抗打断能力的数字语音助手。
安全建议
ElevenLabs 特别提醒,在实际部署中应将语音识别文本视为不可信输入(untrusted input),建议在服务端配置确定性的安全护栏或意图白名单校验,避免原始语音转写文本直接映射为大模型特权动作或敏感工具调用。
与 ElevenAgents 的区别
值得注意的是,ElevenLabs 同时提供ElevenAgents 全托管平台(由 ElevenLabs 提供 LLM、知识库和工具)。Speech Engine 则更适合希望自带 LLM 并自定义对话逻辑的开发者,提供更高的灵活性。SDK 内置对 OpenAI(Responses API、Chat Completions API)、Anthropic Messages API 和 Google Gemini API 流式提取的原生支持,其他服务商可直接传入字符串或异步字符串流。
GitHub 仓库地址:elevenlabs/skills