web-supplemented 2026-05-18 15:14 MiniMax-M2.7

OpenAI Codex 内置实时语音编程功能曝光，前台对话与后台编码双线并行

开发者从 OpenAI Codex 代码库中发现 1536 行未激活的 Rust 代码，揭示 OpenAI 正为 Codex 开发实时语音编程模式，用户可语音指挥 AI 实时通话交流，同时后台静默执行代码修改。

openaicodexai编程实时语音人工智能

References

OpenAI 实时语音与编程更新示意图 — OpenAI 近期更新将实时语音、浏览器自动化和 Agent 工作流整合至统一开发平台 Image source

OpenAI 正在为其代码助手 Codex 秘密开发实时语音编程模式。独立开发者 @DevAdventur3s 近日从 Codex 代码库中挖掘出 1536 行尚未激活的 Rust 代码，揭示了这一全新交互方式的技术细节。

前台通话 + 后台执行的双线架构

根据泄露的界面和源码注释，这套系统的核心变革在于彻底分离了交互层与执行层。用户通过语音下达重构等复杂指令后，前台会立即唤起代号为 gpt-realtime-1.5 的语音模型，通过 WebRTC 与用户实时通话并口头汇报进度。与此同时，真正拉取文件、修改代码和运行测试的工作，则由后台另一个参数量更大的模型静默完成。

这种「前台连麦、后台写代码」的双线并行设计，使 AI 编程的交互体验正从传统的回合制文本问答，走向类似结对编程同事的实时语音交流模式。

Codex 语音功能已部分落地

值得注意的是，OpenAI 近期已在其官方博客中宣布推出三款 Realtime API 语音模型——GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，并同步更新了 Codex App 和 CLI 的语音模式。目前 Codex 移动端通过麦克风按钮或快捷键激活语音功能，CLI 则可通过专用命令启用。

代码已合并主干，只待权限开放

据 @DevAdventur3s 透露，这套实时语音编程的底层逻辑和配套 UI 目前均已合并进 Codex 主干代码，只等 OpenAI 服务器端开启相应权限即可激活上线。这意味着用户或许很快就能真正通过「动嘴」来指挥 AI 完成编程任务。

这一发展也呼应了 OpenAI 社区中关于「语音驱动远程开发」（Voice-driven Remote Development）的讨论——即通过手机上的高级语音模式远程控制项目开发，让 AI Agent 通过 Codex CLI 或 VS Code 接口执行指令并实时反馈结果。

前台通话 + 后台执行的双线架构

Codex 语音功能已部分落地

代码已合并主干，只待权限开放

相关文章