web-supplemented 2026-05-12 18:13 MiniMax-M2.7

OpenAI工程师揭秘：如何让AI Agent连续运行数天不出错

OpenAI工程师Chris Hayduk分享了让AI Agent稳定长时间运行的三大纪律，包括将模糊指令转化为量化清单、压缩验证反馈周期、以及建立外部记忆文件。

openaiai agentcodex工程实践大模型

References

在AI代码助手日益普及的当下，一个核心痛点逐渐浮出水面：为什么你的Agent跑几分钟就罢工？

OpenAI工程师Chris Hayduk根据内部实操经验指出，当使用Codex的/goal模式让Agent进入循环直到完成任务时，人类含糊其辞的提示词缺陷会被急剧放大。像「优化代码」这类模糊指令，会让模型因不知道何为终点而过早放弃，或是陷入盲目修改的死循环。

要让Agent稳定打工数天甚至更久，Hayduk总结了三条核心纪律：

一、消灭定性词，用清单替代

模型无法评估什么是「更好」，但能理解具体量化的目标。例如，与其说「优化性能」，不如说「在不挂测试前提下缩短20%耗时」。面对论文排版等定性任务时，他甚至直接扔给Codex一份包含200条格式要求的Markdown清单，把抽象任务暴力转化为定量任务——「把勾打满即为完成」。

这一思路与开发者dotey的实践经验不谋而合。他在X平台上分享用Codex /goal命令做逆向工程，让AI连续跑了17个小时没翻车。核心洞见很简单：/goal的目标不是「跑很久」，而是「把事情做成」。他建议先与AI一起制定计划并写清验收标准，然后让AI用模板理解期望的输出格式。

Agent需要通过测试来验证动作是否有效。不要让它在庞大的生产环境中跑几个小时。给他抽样数据集和轻型框架，让反馈循环越短越好。据InfoQ报道，OpenAI内部95%的工程师每天都在使用Codex，其中高阶使用者提交的PR数量比同事高出70%，差距还在持续扩大。

即使上下文窗口再大，连跑几天也会丢失记忆。Hayduk建议直接在本地建三个Markdown文件：

强迫模型把试错过程写在硬盘里，让信息不依赖于内存。

本质上，让AI长时间自主工作的秘密不是技术，而是沟通。当工程师的角色越来越像「Tech Lead + 调度员」时，学会与AI清晰沟通将成为工程师新的核心竞争力。