MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

李飞飞再发长文重构世界模型:把空间智能写进物理公式

斯坦福教授、World Labs 联合创始人李飞飞在 Substack 发表万字长文,提出以 POMDP 物理闭环为基础的世界模型三分量框架,强调"模拟器"是连接感知与行动的关键枢纽。

References

从语言到空间:世界模型的物理学重构

继上月阐述"空间智能是 AI 北极星"的万字长文后,被誉为"AI 教母"的斯坦福大学教授、World Labs 联合创始人李飞飞于 6 月 4 日在个人 Substack 再度发布重磅文章《A Functional Taxonomy of World Models》,首次为世界模型(World Models)建立了以物理交互为核心的功能分类框架,并勾勒出从语言模型向空间智能跃迁的演进路线。

李飞飞在文中指出,过去两年行业对"世界模型"的定义高度混乱,本质上是因为大家把不同抽象层次的系统混为一谈。她开宗明义:世界不是由字符组成的,当前大语言模型所掌握的,只是对世界概念符号的概率建模,而非对物理世界本身的统计结构。要让 AI 真正理解三维空间,必须把建模对象从"语义"切换到"几何—物理—时间"。

POMDP 之上的三分量架构

文章最具方法论价值的部分,是把世界模型嵌入到 POMDP(部分可观测马尔可夫决策过程)的闭环之中,并将其解构为三类并行协作的组件:

  • 渲染器(Renderers):负责从隐状态生成视觉观测,把模型内部表征"画"成图像或视频。
  • 模拟器(Simulators):预测几何形态与物理动力学的下一步状态,对物体的位置、速度、碰撞、摩擦负责。
  • 规划器(Planners):在隐空间中给出可执行的动作序列,把决策从感知里推出来。

李飞飞用一句话点出了三者关系:"Simulation is the linchpin"(模拟才是枢纽)。一个只会生成画面、却无法预测物理反馈的渲染器,本质上仍是一个缺乏三维理解的视频模型;真正能让世界模型作用于真实世界的,是能够预测动作后果、并据此反推最优动作的模拟器。

终极形态:统一世界模型

在路线图层面,李飞飞把三类组件的演化划成一条清晰路径:渲染、模拟与规划最终将融合成一个统一世界模型(Unified World Model),三个原本分离的功能边界将逐步塌陷。这并不是一个纯学术猜想——World Labs 旗下的 3D 生成平台 Marble 已被她视为这一趋势的早期工程样本:在同一个模型中,Marble 既输出用于 3D 渲染的画面,也输出用于物理交互的碰撞网格(collision mesh),渲染与模拟的组件边界第一次出现可观察的融合。

从概念到可落地的物理 AI

李飞飞强调,这一分类框架的真正价值,是为当前鱼���混杂的"世界模型"赛道确立统一坐标系。无论是 Yann LeCun 倡导的 JEPA、DeepMind 的 Genie,还是自动驾驶与机器人领域的端到端方案,都可以被映射到这套三分量体系内进行横向比较。她认为,下一代 AI 的胜负手不在语言数据的多寡,而在于能否在几何一致性、物理一致性与时间一致性上同时达标——这也是空间智能被业界普遍视为 AGI 下一站的原因。

随着 World Labs、Fei-Fei Li 团队以及全球多家具身智能公司沿着这一框架继续推进,世界模型正从论文概念,加速走向能真正"与物理世界互动"的工程范式。