在AI代码助手日益普及的当下,一个核心痛点逐渐浮出水面:为什么你的Agent跑几分钟就罢工?
OpenAI工程师Chris Hayduk根据内部实操经验指出,当使用Codex的/goal模式让Agent进入循环直到完成任务时,人类含糊其辞的提示词缺陷会被急剧放大。像「优化代码」这类模糊指令,会让模型因不知道何为终点而过早放弃,或是陷入盲目修改的死循环。
要让Agent稳定打工数天甚至更久,Hayduk总结了三条核心纪律:
一、消灭定性词,用清单替代
模型无法评估什么是「更好」,但能理解具体量化的目标。例如,与其说「优化性能」,不如说「在不挂测试前提下缩短20%耗时」。面对论文排版等定性任务时,他甚至直接扔给Codex一份包含200条格式要求的Markdown清单,把抽象任务暴力转化为定量任务——「把勾打满即为完成」。
这一思路与开发者dotey的实践经验不谋而合。他在X平台上分享用Codex /goal命令做逆向工程,让AI连续跑了17个小时没翻车。核心洞见很简单:/goal的目标不是「跑很久」,而是「把事情做成」。他建议先与AI一起制定计划并写清验收标准,然后让AI用模板理解期望的输出格式。
二、把验证耗时压到分钟级
Agent需要通过测试来验证动作是否有效。不要让它在庞大的生产环境中跑几个小时。给他抽样数据集和轻型框架,让反馈循环越短越好。据InfoQ报道,OpenAI内部95%的工程师每天都在使用Codex,其中高阶使用者提交的PR数量比同事高出70%,差距还在持续扩大。
三、建三个文件当「外脑」
即使上下文窗口再大,连跑几天也会丢失记忆。Hayduk建议直接在本地建三个Markdown文件:
- PLAN.md:宏观计划
- EXPERIMENTS.md:实验得失记录
- EXPERIMENT_NOTES.md:实时思考草稿
强迫模型把试错过程写在硬盘里,让信息不依赖于内存。
本质上,让AI长时间自主工作的秘密不是技术,而是沟通。当工程师的角色越来越像「Tech Lead + 调度员」时,学会与AI清晰沟通将成为工程师新的核心竞争力。