背景:强化学习的「灾难性遗忘」困境
传统强化学习面临一个核心难题——灾难性遗忘(Catastrophic Forgetting):神经网络在学习新任务时,往往会覆盖之前习得的能力。这一局限性推动研究者不断探索新的范式。
核心突破:知识存于代码,而非参数
翁家翌提出的「启发式学习(Heuristic Learning)」范式,核心创新在于重新回答了「学到的东西存在哪里」这一根本问题。传统做法将知识压缩进神经网络参数,而新思路则将知识转化为人类可读的代码。
实验流程如下:
- GPT-5.4(Codex) 编写一版 Atari 打砖块的 Python 策略代码
- 运行游戏,观察失误位置
- AI 根据失败案例自主修改代码
- 循环迭代,直到达到满分
经过数轮迭代,打砖块得分从初始的 387 分提升至满分 864 分。整个过程中,没有任何神经网络参数被重新训练。
技术细节:AI写出的完整软件系统
最终生成的代码已发展为一个完整的软件系统,包含:
- 球路预测器:预判球的运动轨迹
- 卡球检测器:识别并处理游戏卡死情况
- 回归测试:确保修改不破坏已有功能
- 实验日志:记录每次迭代的策略变化
所有代码均为 if-else 规则、落点预测和死循环检测的组合,完全不依赖神经网络。
性能验证:不止打砖块
除 Atari 打砖块满分外,该方法在其他任务上也表现出色:
- MuJoCo Ant(机器蚂蚁模拟):超过 6000 分,达到深度强化学习级别
- Atari57 全套 57 个游戏:逼近 PPO(Proximal Policy Optimization)基准
局限性与发展方向
翁家翌也明确指出这一范式的边界:纯代码方案无法处理复杂感知任务,如图像识别。他设想的「终局」是混合架构:
- 底层:轻量级神经网络负责视觉等感知任务
- 中层:启发式学习处理实时逻辑和安全规则
- 顶层:大模型审查日志、修改代码,并周期性用高质量数据更新底层系统
启示:AI写代码的「新炼金术」
过去手写规则之所以被淘汰,不是因为规则本身没用,而是人类维护成本过高。如今 AI 编写代码的速度和质量已大幅提升,这条「老路」重新变得可行。
翁家翌已开源全部实验代码,为强化学习研究提供了全新思路。
参考来源:翁家翌个人主页及相关媒体报道。