web-supplemented 2026-05-28 18:13 MiniMax-M2.7

ElevenLabs 开源 Speech Engine Skill：一行命令实现低延迟实时语音对话

语音 AI 独角兽 ElevenLabs 正式开源 Speech Engine Skill，遵循 Agent Skills 开放规范，开发者通过简单命令即可将高保真、低延迟的语音交互能力集成到 AI 智能体与大语言模型应用中。

elevenlabsspeech engine开源实时语音agent skillswebsocket语音 AI

References

Speech Engine 架构图 — Speech Engine 将语音、转写和语音编排模型整合为一套协同工作的流程 Image source

语音 AI 领域独角兽 ElevenLabs 正式开源了实时语音对话组件 Speech Engine Skill，旨在帮助开发者快速为 AI 智能体与大语言模型（LLM）应用集成高保真、低延迟的语音交互能力。

一行命令即可接入

Speech Engine Skill 遵循 Agent Skills 开放规范，兼容任意符合该规范标准的 AI 编码助手。开发者只需在项目终端中运行 npx skills add elevenlabs/skills 命令，即可将语音引擎添加到项目运行时中，无需对接多套 API 或构建复杂状态机。

核心技术架构

Speech Engine 基于高性能 WebSocket 连接构建，每个连接代表一个通话会话。其工作流程如下：

音频采集与传输：用户开口说话时，浏览器捕获音频并流式传输给 ElevenLabs
语音转文字：ElevenLabs 实时完成语音识别（ASR），将文本推送给开发者的服务器
LLM 响应生成：服务器通过大语言模型生成流式文本响应
语音合成回传：利用 SDK 的 sendResponse() 或 send_response() 函数（支持字符串或异步迭代器）将响应传回，ElevenLabs 将其转换为低延迟合成语音在浏览器中播放

SDK 在后台自动管理网络路由、请求签名校验、心跳检测和会话生命周期，并原生支持**插话打断（interruption）与对话轮转（turn-taking）**功能。

多语言与客户端支持

Speech Engine 支持90 多种语言的语音转写，覆盖70 多种语言的自然语音合成。开发者可从 11,000 多个预制声音库中选择，也可通过语音克隆自定义音色。

为了简化前端开发流程，ElevenLabs 同步推出了 @elevenlabs/react 与 @elevenlabs/client 客户端库。前端页面仅需极少代码，配合服务器发放的安全会话凭证，即可快速拉起具备抗噪声与抗打断能力的数字语音助手。

安全建议

ElevenLabs 特别提醒，在实际部署中应将语音识别文本视为不可信输入（untrusted input），建议在服务端配置确定性的安全护栏或意图白名单校验，避免原始语音转写文本直接映射为大模型特权动作或敏感工具调用。

与 ElevenAgents 的区别

值得注意的是，ElevenLabs 同时提供ElevenAgents 全托管平台（由 ElevenLabs 提供 LLM、知识库和工具）。Speech Engine 则更适合希望自带 LLM 并自定义对话逻辑的开发者，提供更高的灵活性。SDK 内置对 OpenAI（Responses API、Chat Completions API）、Anthropic Messages API 和 Google Gemini API 流式提取的原生支持，其他服务商可直接传入字符串或异步字符串流。

GitHub 仓库地址：elevenlabs/skills

一行命令即可接入

核心技术架构

多语言与客户端支持

安全建议

与 ElevenAgents 的区别

相关文章