web-supplemented 2026-05-26 11:41 MiniMax-M2.7

小米发布JointWM世界模型框架：首次深度耦合三维重建与视频生成

小米汽车发布全新Xiaomi EV World Model世界模型框架JointWM，通过将三维重建与视频生成模块深度整合，在Waymo和nuScenes等主流基准中刷新多项性能纪录，并已落地三大自动驾驶应用场景。

小米自动驾驶世界模型JointWM三维重建视频生成人工智能智能汽车

References

小米汽车近日正式发布Xiaomi EV World Model辅助驾驶世界模型全新框架——JointWM，首次在内部实现三维重建与视频生成模块的深度耦合。这一技术突破标志着小米在自动驾驶仿真领域取得了重要进展。

解决行业痛点

在自动驾驶仿真领域，传统技术长期面临重建与生成割裂的困境：重建模块虽能还原场景但无法预测变化，生成模块虽能预测未来但长时序下容易出现失真漂移。小米团队创新提出JointWM架构，以三维几何结构作为物理骨架锚定场景，再通过生成模块补全视觉细节并预测未观测区域。

技术架构

该框架包含两大核心模块：

WorldRec重建模块：舍弃传统逐像素范式，改用稀疏三维查询点进行场景表征，增量融合为跨视角4D Gaussian空间骨架，实现10秒内完成场景重建并生成10秒视频。
WorldGen生成模块：基于重建模块提供的几何先验，受限于骨架物理边界生成合理的光影与纹理；对于未来帧与视野盲区等边界之外的内容，通过两阶段时序训练与分布匹配蒸馏机制进行物理预测。

在性能表现上，JointWM在H20 GPU上实现单视角0.19秒、三视角0.46秒的生成速度，支持最长1分钟的视频生成。在Waymo重建精度测试中取得28.48 PSNR成绩，并在nuScenes零样本泛化中保持领先。生成效率比自回归基线Epona快5.6倍。

落地应用

目前该技术已在小米汽车三大场景落地：

感知模型训练：已交付超10万段高质量合成数据用于感知模型训练
闭环仿真：构建高逼真闭环仿真环境复现长尾路况
辅助驾驶学堂：以生成式视频指导用户操作

值得关注的是，小米近年来在自动驾驶AI领域持续发力，此前已发布融合VLA与世界模型的Xiaomi OneVL、开源模型权重及训练推理代码，并与Xiaomi HAD增强版协同构建完整的智能驾驶技术体系。随着新一代SU7全系标配激光雷达、4D毫米波雷达及700TOPS算力，小米正加速推进其"认知驱动"智能驾驶战略。

解决行业痛点

技术架构

落地应用

相关文章