OpenAI 正在为其代码助手 Codex 秘密开发实时语音编程模式。独立开发者 @DevAdventur3s 近日从 Codex 代码库中挖掘出 1536 行尚未激活的 Rust 代码,揭示了这一全新交互方式的技术细节。
前台通话 + 后台执行的双线架构
根据泄露的界面和源码注释,这套系统的核心变革在于彻底分离了交互层与执行层。用户通过语音下达重构等复杂指令后,前台会立即唤起代号为 gpt-realtime-1.5 的语音模型,通过 WebRTC 与用户实时通话并口头汇报进度。与此同时,真正拉取文件、修改代码和运行测试的工作,则由后台另一个参数量更大的模型静默完成。
这种「前台连麦、后台写代码」的双线并行设计,使 AI 编程的交互体验正从传统的回合制文本问答,走向类似结对编程同事的实时语音交流模式。
Codex 语音功能已部分落地
值得注意的是,OpenAI 近期已在其 官方博客 中宣布推出三款 Realtime API 语音模型——GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,并同步更新了 Codex App 和 CLI 的语音模式。目前 Codex 移动端通过麦克风按钮或快捷键激活语音功能,CLI 则可通过专用命令启用。
代码已合并主干,只待权限开放
据 @DevAdventur3s 透露,这套实时语音编程的底层逻辑和配套 UI 目前均已合并进 Codex 主干代码,只等 OpenAI 服务器端开启相应权限即可激活上线。这意味着用户或许很快就能真正通过「动嘴」来指挥 AI 完成编程任务。
这一发展也呼应了 OpenAI 社区中关于「语音驱动远程开发」(Voice-driven Remote Development)的讨论——即通过手机上的高级语音模式远程控制项目开发,让 AI Agent 通过 Codex CLI 或 VS Code 接口执行指令并实时反馈结果。