大模型直接写代码控制流体:14美元击败强化学习基线
工业流体力学控制领域正迎来一种全新的 AI 范式——不靠训练神经网络,而是让大模型当程序员,手写控制规则。
从游戏到工业:同一思路的延伸
这一方法的雏形来自 OpenAI 后训练团队核心成员翁家翌(Jiayi Weng)。他提出「启发式学习」(Heuristic Learning, HL)范式,核心思路是让 Codex 驱动的 Coding Agent 自主迭代 Python 脚本,以代码编辑替代梯度下降,通过显式的符号规则实现状态-动作映射。在 Atari 游戏 Breakout 上,这一方法不依赖任何神经网络训练,硬是达到了 864 分的理论满分。
现在,研究人员 Paul Garnier 将这一思路搬到了更硬核的工业场景——流体力学控制,涵盖汽车减阻、管道湍流抑制等真实应用。
全程零神经网络训练,14美元跑通策略
Garnier 全程未训练任何神经网络。Codex 5.5 仅被用作「程序员」,盯着流体仿真录像反复分析效果、修改 Python 脚本、优化控制逻辑。这套手写规则在十多项物理测试中,超过半数场景击败了顶级深度强化学习(DRL)基线。
整套控制策略仅消耗 2125 万 Token,总花费不到 14 美元——相比动辄数十万美元的神经网络训练成本,堪称白菜价。
代码取代黑盒:物理逻辑带来的鲁棒性
传统深度强化学习依赖海量环境交互训练出的神经网络「黑盒」控制气流阀门,一旦硬件改动(如喷嘴从 5 个换成 10 个),模型立即报废,必须重新烧钱训练。
而 Codex 写出的控制规则极度直白,例如「当局部曲率过大时,延迟喷气」。几十行带着物理常识的短代码,直接替代了神经网络的无脑暴力试错。由于规则直接遵循物理逻辑,当测试时间被强行拉长四倍、走出传统 DRL 模型的「经验区」时,这套代码始终保持稳定运转。
启示:从「压经验进权重」到「写经验进代码」
如果说深度学习过去十年证明了「经验可以被压缩进权重」,那么启发式学习提出的假设是:在 Coding Agent 时代,经验也许可以重新变成可解释、可修改、可传承的代码。神经网络僵化、一碰硬件就碎的痛点,正被这种「白盒」方法绕过。