MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

小米发布JointWM世界模型框架:首次深度耦合三维重建与视频生成

小米汽车发布全新Xiaomi EV World Model世界模型框架JointWM,通过将三维重建与视频生成模块深度整合,在Waymo和nuScenes等主流基准中刷新多项性能纪录,并已落地三大自动驾驶应用场景。

References

小米汽车近日正式发布Xiaomi EV World Model辅助驾驶世界模型全新框架——JointWM,首次在内部实现三维重建与视频生成模块的深度耦合。这一技术突破标志着小米在自动驾驶仿真领域取得了重要进展。

解决行业痛点

在自动驾驶仿真领域,传统技术长期面临重建与生成割裂的困境:重建模块虽能还原场景但无法预测变化,生成模块虽能预测未来但长时序下容易出现失真漂移。小米团队创新提出JointWM架构,以三维几何结构作为物理骨架锚定场景,再通过生成模块补全视觉细节并预测未观测区域。

技术架构

该框架包含两大核心模块:

  • WorldRec重建模块:舍弃传统逐像素范式,改用稀疏三维查询点进行场景表征,增量融合为跨视角4D Gaussian空间骨架,实现10秒内完成场景重建并生成10秒视频。
  • WorldGen生成模块:基于重建模块提供的几何先验,受限于骨架物理边界生成合理的光影与纹理;对于未来帧与视野盲区等边界之外的内容,通过两阶段时序训练与分布匹配蒸馏机制进行物理预测。

在性能表现上,JointWM在H20 GPU上实现单视角0.19秒、三视角0.46秒的生成速度,支持最长1分钟的视频生成。在Waymo重建精度测试中取得28.48 PSNR成绩,并在nuScenes零样本泛化中保持领先。生成效率比自回归基线Epona快5.6倍。

落地应用

目前该技术已在小米汽车三大场景落地:

  1. 感知模型训练:已交付超10万段高质量合成数据用于感知模型训练
  2. 闭环仿真:构建高逼真闭环仿真环境复现长尾路况
  3. 辅助驾驶学堂:以生成式视频指导用户操作

值得关注的是,小米近年来在自动驾驶AI领域持续发力,此前已发布融合VLA与世界模型的Xiaomi OneVL、开源模型权重及训练推理代码,并与Xiaomi HAD增强版协同构建完整的智能驾驶技术体系。随着新一代SU7全系标配激光雷达、4D毫米波雷达及700TOPS算力,小米正加速推进其"认知驱动"智能驾驶战略。