web-supplemented 2026-05-08 18:45 MiniMax-M2.7

OpenAI工程师翁家翌提出「启发式学习」新范式：AI自己写代码通关Atari，无需训练神经网络

OpenAI后训练核心工程师翁家翌提出强化学习新思路，通过让AI自主编写和改进游戏策略代码而非训练神经网络参数，在Atari打砖块游戏中达到满分864分。

openai翁家翌启发式学习强化学习codexgptatari人工智能

References

背景：强化学习的「灾难性遗忘」困境

传统强化学习面临一个核心难题——灾难性遗忘（Catastrophic Forgetting）：神经网络在学习新任务时，往往会覆盖之前习得的能力。这一局限性推动研究者不断探索新的范式。

翁家翌提出的「启发式学习（Heuristic Learning）」范式，核心创新在于重新回答了「学到的东西存在哪里」这一根本问题。传统做法将知识压缩进神经网络参数，而新思路则将知识转化为人类可读的代码。

实验流程如下：

经过数轮迭代，打砖块得分从初始的 387 分提升至满分 864 分。整个过程中，没有任何神经网络参数被重新训练。

最终生成的代码已发展为一个完整的软件系统，包含：

所有代码均为 if-else 规则、落点预测和死循环检测的组合，完全不依赖神经网络。

除 Atari 打砖块满分外，该方法在其他任务上也表现出色：

翁家翌也明确指出这一范式的边界：纯代码方案无法处理复杂感知任务，如图像识别。他设想的「终局」是混合架构：

过去手写规则之所以被淘汰，不是因为规则本身没用，而是人类维护成本过高。如今 AI 编写代码的速度和质量已大幅提升，这条「老路」重新变得可行。

翁家翌已开源全部实验代码，为强化学习研究提供了全新思路。

参考来源：翁家翌个人主页及相关媒体报道。