web-supplemented 2026-05-19 19:07 MiniMax-M2.7

大模型写代码控制流体力学：14美元颠覆强化学习，成本仅为神经网络零头

研究人员将大模型编写控制代码的方法从游戏拓展至工业流体力学场景，全程未训练神经网络，仅通过 Codex 迭代修改 Python 脚本，在十多项测试中超过半数击败顶级深度强化学习基线，且成本仅需不到14美元。

人工智能大模型强化学习流体力学工业控制代码驱动

References

大模型直接写代码控制流体：14美元击败强化学习基线

工业流体力学控制领域正迎来一种全新的 AI 范式——不靠训练神经网络，而是让大模型当程序员，手写控制规则。

从游戏到工业：同一思路的延伸

这一方法的雏形来自 OpenAI 后训练团队核心成员翁家翌（Jiayi Weng）。他提出「启发式学习」（Heuristic Learning, HL）范式，核心思路是让 Codex 驱动的 Coding Agent 自主迭代 Python 脚本，以代码编辑替代梯度下降，通过显式的符号规则实现状态-动作映射。在 Atari 游戏 Breakout 上，这一方法不依赖任何神经网络训练，硬是达到了 864 分的理论满分。

现在，研究人员 Paul Garnier 将这一思路搬到了更硬核的工业场景——流体力学控制，涵盖汽车减阻、管道湍流抑制等真实应用。

全程零神经网络训练，14美元跑通策略

Garnier 全程未训练任何神经网络。Codex 5.5 仅被用作「程序员」，盯着流体仿真录像反复分析效果、修改 Python 脚本、优化控制逻辑。这套手写规则在十多项物理测试中，超过半数场景击败了顶级深度强化学习（DRL）基线。

整套控制策略仅消耗 2125 万 Token，总花费不到 14 美元——相比动辄数十万美元的神经网络训练成本，堪称白菜价。

代码取代黑盒：物理逻辑带来的鲁棒性

传统深度强化学习依赖海量环境交互训练出的神经网络「黑盒」控制气流阀门，一旦硬件改动（如喷嘴从 5 个换成 10 个），模型立即报废，必须重新烧钱训练。

而 Codex 写出的控制规则极度直白，例如「当局部曲率过大时，延迟喷气」。几十行带着物理常识的短代码，直接替代了神经网络的无脑暴力试错。由于规则直接遵循物理逻辑，当测试时间被强行拉长四倍、走出传统 DRL 模型的「经验区」时，这套代码始终保持稳定运转。

启示：从「压经验进权重」到「写经验进代码」

如果说深度学习过去十年证明了「经验可以被压缩进权重」，那么启发式学习提出的假设是：在 Coding Agent 时代，经验也许可以重新变成可解释、可修改、可传承的代码。神经网络僵化、一碰硬件就碎的痛点，正被这种「白盒」方法绕过。

大模型直接写代码控制流体：14美元击败强化学习基线

从游戏到工业：同一思路的延伸

全程零神经网络训练，14美元跑通策略

代码取代黑盒：物理逻辑带来的鲁棒性

启示：从「压经验进权重」到「写经验进代码」

相关文章