MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

OpenAI工程师翁家翌提出「启发式学习」新范式:AI自己写代码通关Atari,无需训练神经网络

OpenAI后训练核心工程师翁家翌提出强化学习新思路,通过让AI自主编写和改进游戏策略代码而非训练神经网络参数,在Atari打砖块游戏中达到满分864分。

References

背景:强化学习的「灾难性遗忘」困境

传统强化学习面临一个核心难题——灾难性遗忘(Catastrophic Forgetting):神经网络在学习新任务时,往往会覆盖之前习得的能力。这一局限性推动研究者不断探索新的范式。

核心突破:知识存于代码,而非参数

翁家翌提出的「启发式学习(Heuristic Learning)」范式,核心创新在于重新回答了「学到的东西存在哪里」这一根本问题。传统做法将知识压缩进神经网络参数,而新思路则将知识转化为人类可读的代码

实验流程如下:

  1. GPT-5.4(Codex) 编写一版 Atari 打砖块的 Python 策略代码
  2. 运行游戏,观察失误位置
  3. AI 根据失败案例自主修改代码
  4. 循环迭代,直到达到满分

经过数轮迭代,打砖块得分从初始的 387 分提升至满分 864 分。整个过程中,没有任何神经网络参数被重新训练。

技术细节:AI写出的完整软件系统

最终生成的代码已发展为一个完整的软件系统,包含:

  • 球路预测器:预判球的运动轨迹
  • 卡球检测器:识别并处理游戏卡死情况
  • 回归测试:确保修改不破坏已有功能
  • 实验日志:记录每次迭代的策略变化

所有代码均为 if-else 规则、落点预测和死循环检测的组合,完全不依赖神经网络。

性能验证:不止打砖块

除 Atari 打砖块满分外,该方法在其他任务上也表现出色:

  • MuJoCo Ant(机器蚂蚁模拟):超过 6000 分,达到深度强化学习级别
  • Atari57 全套 57 个游戏:逼近 PPO(Proximal Policy Optimization)基准

局限性与发展方向

翁家翌也明确指出这一范式的边界:纯代码方案无法处理复杂感知任务,如图像识别。他设想的「终局」是混合架构

  • 底层:轻量级神经网络负责视觉等感知任务
  • 中层:启发式学习处理实时逻辑和安全规则
  • 顶层:大模型审查日志、修改代码,并周期性用高质量数据更新底层系统

启示:AI写代码的「新炼金术」

过去手写规则之所以被淘汰,不是因为规则本身没用,而是人类维护成本过高。如今 AI 编写代码的速度和质量已大幅提升,这条「老路」重新变得可行。

翁家翌已开源全部实验代码,为强化学习研究提供了全新思路。


参考来源:翁家翌个人主页及相关媒体报道。