web-supplemented 2026-06-01 16:23 MiniMax-M2.7

强化学习之父Sutton警告：生成式AI缺乏运行时评估机制，难以实现真正创造

强化学习之父Richard Sutton在最新演讲中指出，当前生成式AI本质上是「模仿式AI」，因缺少运行时评估机制而无法在科学和数学领域实现真正的创造与发现，呼吁将科学探索的衡量标准写成可度量的目标函数以实现全自动自主AI科学家。

人工智能强化学习Richard Sutton生成式AIAI创造

References

强化学习之父Sutton警告：生成式AI缺乏运行时评估机制，难以实现真正创造

被称为「强化学习之父」的2024年ACM图灵奖得主Richard Sutton近期发表最新演讲《AI Creativity and Discovery》，对当前生成式AI的发展路径提出了尖锐质疑。他指出，仅靠监督预训练的生成式AI本质上是「模仿式AI」（Mimicking AI），无法在科学和数学领域实现真正的创造与发现。

运行时缺失的评估机制是致命死穴

Sutton在演讲中系统阐述了他对创造与发现的理解框架：真正的创造与发现必须包含三个核心要素——变异（Variation）、评估（Evaluation）和选择性保留（Selective Retention）。生成式AI虽然在采样随机性上具备变异的特征，但在运行时（runtime）缺乏评估机制，无法进行有价值的筛选与保留。

这一矛盾导致生成式AI面临一个根本性的两难困境：其输出要么因随机性而具有新颖性，要么因训练数据而保持优秀，但无法同时做到既新颖又优秀。一旦试图超越源材料进行原创性探索，便不可避免地产生幻觉（hallucination）。

Sutton此前曾在社交媒体上以26字重申其标志性的「苦涩的教训」（The Bitter Lesson）立场，强调应专注于搜索与学习等能随算力扩展的通用方法，而非依赖人类知识注入。

反向传播的局限与可塑性丧失

Sutton进一步指出，即使是反向传播算法（Backpropagation），在运行时也是确定性的——变异仅发生在权重初始化阶段，而随着训练过程推进，神经网络会逐渐丧失可塑性（Plasticity）。这意味着传统监督学习方法在运行时缺乏真正的探索能力。

针对这一问题，Sutton介绍了其此前发表于《自然》（Nature）杂志的持续反向传播算法（Continual Backpropagation）：通过在训练过程中定期随机重置低使用率神经元的权重，使网络得以维持持续的变异与学习能力。这一研究为突破传统神经网络的「可塑性丧失」困境提供了新思路。

真正的发现属于强化学习与搜索

Sutton强调，发现的本质是基于明确目标函数的「尝试与保留」闭环，这一机制存在于强化学习、规划和组合搜索之中，但纯预测和监督学习并不具备。他此前在新加坡国立大学发表的「经验时代」（Era of Experience）演讲中也曾系统阐述类似观点，认为AI的未来在于从人类知识向经验驱动的范式转变。

通往AI科学家的路径

Sutton最后呼吁，若要实现全自动自主的AI科学家，人类必须将科学探索的衡量标准抽象为算法可度量的**「目标函数」**并共享给模型。唯有让AI在运行时自主完成「生成尝试→利用目标打分→选择性保留」的完整闭环，不再依赖人类在屏幕前充当裁判，才能真正实现科学发现与创造的自动化。

这一观点与Sutton一贯倡导的「苦涩的教训」一脉相承：通用方法终将胜出，而真正通向AI创造力的路径，或许在于让机器学会自主评估与选择，而非仅仅模仿人类已知的知识。

强化学习之父Sutton警告：生成式AI缺乏运行时评估机制，难以实现真正创造

运行时缺失的评估机制是致命死穴

反向传播的局限与可塑性丧失

真正的发现属于强化学习与搜索

通往AI科学家的路径

相关文章