MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

OpenAI工程师揭秘:如何让AI Agent连续运行数天不出错

OpenAI工程师Chris Hayduk分享了让AI Agent稳定长时间运行的三大纪律,包括将模糊指令转化为量化清单、压缩验证反馈周期、以及建立外部记忆文件。

References

在AI代码助手日益普及的当下,一个核心痛点逐渐浮出水面:为什么你的Agent跑几分钟就罢工?

OpenAI工程师Chris Hayduk根据内部实操经验指出,当使用Codex的/goal模式让Agent进入循环直到完成任务时,人类含糊其辞的提示词缺陷会被急剧放大。像「优化代码」这类模糊指令,会让模型因不知道何为终点而过早放弃,或是陷入盲目修改的死循环。

要让Agent稳定打工数天甚至更久,Hayduk总结了三条核心纪律:

一、消灭定性词,用清单替代

模型无法评估什么是「更好」,但能理解具体量化的目标。例如,与其说「优化性能」,不如说「在不挂测试前提下缩短20%耗时」。面对论文排版等定性任务时,他甚至直接扔给Codex一份包含200条格式要求的Markdown清单,把抽象任务暴力转化为定量任务——「把勾打满即为完成」。

这一思路与开发者dotey的实践经验不谋而合。他在X平台上分享用Codex /goal命令做逆向工程,让AI连续跑了17个小时没翻车。核心洞见很简单:/goal的目标不是「跑很久」,而是「把事情做成」。他建议先与AI一起制定计划并写清验收标准,然后让AI用模板理解期望的输出格式。

二、把验证耗时压到分钟级

Agent需要通过测试来验证动作是否有效。不要让它在庞大的生产环境中跑几个小时。给他抽样数据集和轻型框架,让反馈循环越短越好。据InfoQ报道,OpenAI内部95%的工程师每天都在使用Codex,其中高阶使用者提交的PR数量比同事高出70%,差距还在持续扩大。

三、建三个文件当「外脑」

即使上下文窗口再大,连跑几天也会丢失记忆。Hayduk建议直接在本地建三个Markdown文件:

  • PLAN.md:宏观计划
  • EXPERIMENTS.md:实验得失记录
  • EXPERIMENT_NOTES.md:实时思考草稿

强迫模型把试错过程写在硬盘里,让信息不依赖于内存。

本质上,让AI长时间自主工作的秘密不是技术,而是沟通。当工程师的角色越来越像「Tech Lead + 调度员」时,学会与AI清晰沟通将成为工程师新的核心竞争力。