web-supplemented 2026-06-04 10:53 MiniMax-M3

李飞飞再发长文重构世界模型：把空间智能写进物理公式

斯坦福教授、World Labs 联合创始人李飞飞在 Substack 发表万字长文，提出以 POMDP 物理闭环为基础的世界模型三分量框架，强调"模拟器"是连接感知与行动的关键枢纽。

李飞飞世界模型空间智能World LabsMarbleAI前沿

References

从语言到空间：世界模型的物理学重构

继上月阐述"空间智能是 AI 北极星"的万字长文后，被誉为"AI 教母"的斯坦福大学教授、World Labs 联合创始人李飞飞于 6 月 4 日在个人 Substack 再度发布重磅文章《A Functional Taxonomy of World Models》，首次为世界模型（World Models）建立了以物理交互为核心的功能分类框架，并勾勒出从语言模型向空间智能跃迁的演进路线。

李飞飞在文中指出，过去两年行业对"世界模型"的定义高度混乱，本质上是因为大家把不同抽象层次的系统混为一谈。她开宗明义：世界不是由字符组成的，当前大语言模型所掌握的，只是对世界概念符号的概率建模，而非对物理世界本身的统计结构。要让 AI 真正理解三维空间，必须把建模对象从"语义"切换到"几何—物理—时间"。

POMDP 之上的三分量架构

文章最具方法论价值的部分，是把世界模型嵌入到 POMDP（部分可观测马尔可夫决策过程）的闭环之中，并将其解构为三类并行协作的组件：

渲染器（Renderers）：负责从隐状态生成视觉观测，把模型内部表征"画"成图像或视频。
模拟器（Simulators）：预测几何形态与物理动力学的下一步状态，对物体的位置、速度、碰撞、摩擦负责。
规划器（Planners）：在隐空间中给出可执行的动作序列，把决策从感知里推出来。

李飞飞用一句话点出了三者关系："Simulation is the linchpin"（模拟才是枢纽）。一个只会生成画面、却无法预测物理反馈的渲染器，本质上仍是一个缺乏三维理解的视频模型；真正能让世界模型作用于真实世界的，是能够预测动作后果、并据此反推最优动作的模拟器。

终极形态：统一世界模型

在路线图层面，李飞飞把三类组件的演化划成一条清晰路径：渲染、模拟与规划最终将融合成一个统一世界模型（Unified World Model），三个原本分离的功能边界将逐步塌陷。这并不是一个纯学术猜想——World Labs 旗下的 3D 生成平台 Marble 已被她视为这一趋势的早期工程样本：在同一个模型中，Marble 既输出用于 3D 渲染的画面，也输出用于物理交互的碰撞网格（collision mesh），渲染与模拟的组件边界第一次出现可观察的融合。

从概念到可落地的物理 AI

李飞飞强调，这一分类框架的真正价值，是为当前鱼��混杂的"世界模型"赛道确立统一坐标系。无论是 Yann LeCun 倡导的 JEPA、DeepMind 的 Genie，还是自动驾驶与机器人领域的端到端方案，都可以被映射到这套三分量体系内进行横向比较。她认为，下一代 AI 的胜负手不在语言数据的多寡，而在于能否在几何一致性、物理一致性与时间一致性上同时达标——这也是空间智能被业界普遍视为 AGI 下一站的原因。

随着 World Labs、Fei-Fei Li 团队以及全球多家具身智能公司沿着这一框架继续推进，世界模型正从论文概念，加速走向能真正"与物理世界互动"的工程范式。

从语言到空间：世界模型的物理学重构

POMDP 之上的三分量架构

终极形态：统一世界模型

从概念到可落地的物理 AI

相关文章