MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

OpenAI Codex 内置实时语音编程功能曝光,前台对话与后台编码双线并行

开发者从 OpenAI Codex 代码库中发现 1536 行未激活的 Rust 代码,揭示 OpenAI 正为 Codex 开发实时语音编程模式,用户可语音指挥 AI 实时通话交流,同时后台静默执行代码修改。

References

OpenAI 实时语音与编程更新示意图
OpenAI 近期更新将实时语音、浏览器自动化和 Agent 工作流整合至统一开发平台 Image source

OpenAI 正在为其代码助手 Codex 秘密开发实时语音编程模式。独立开发者 @DevAdventur3s 近日从 Codex 代码库中挖掘出 1536 行尚未激活的 Rust 代码,揭示了这一全新交互方式的技术细节。

前台通话 + 后台执行的双线架构

根据泄露的界面和源码注释,这套系统的核心变革在于彻底分离了交互层与执行层。用户通过语音下达重构等复杂指令后,前台会立即唤起代号为 gpt-realtime-1.5 的语音模型,通过 WebRTC 与用户实时通话并口头汇报进度。与此同时,真正拉取文件、修改代码和运行测试的工作,则由后台另一个参数量更大的模型静默完成。

这种「前台连麦、后台写代码」的双线并行设计,使 AI 编程的交互体验正从传统的回合制文本问答,走向类似结对编程同事的实时语音交流模式。

Codex 语音功能已部分落地

值得注意的是,OpenAI 近期已在其 官方博客 中宣布推出三款 Realtime API 语音模型——GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper,并同步更新了 Codex App 和 CLI 的语音模式。目前 Codex 移动端通过麦克风按钮或快捷键激活语音功能,CLI 则可通过专用命令启用。

代码已合并主干,只待权限开放

据 @DevAdventur3s 透露,这套实时语音编程的底层逻辑和配套 UI 目前均已合并进 Codex 主干代码,只等 OpenAI 服务器端开启相应权限即可激活上线。这意味着用户或许很快就能真正通过「动嘴」来指挥 AI 完成编程任务。

这一发展也呼应了 OpenAI 社区中关于「语音驱动远程开发」(Voice-driven Remote Development)的讨论——即通过手机上的高级语音模式远程控制项目开发,让 AI Agent 通过 Codex CLI 或 VS Code 接口执行指令并实时反馈结果。