MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

英伟达正式开放Cosmos 3世界模型下载:全球首个全模态物理AI基础模型

英伟达今日开放Cosmos 3世界模型Super与Nano两版本下载,该模型号称全球首个完全开放的全模态世界基础模型,支持文本、图像、视频、环境声和动作的原生理解与生成。

References

NVIDIA Cosmos 世界基础模型
英伟达Cosmos世界基础模型 Image source

英伟达于2026年6月1日正式开放Cosmos 3世界模型的权重下载,首批发布Super(6460亿参数)和Nano(1570亿参数)两个版本,用户可直接在HuggingFace平台上获取(无访问限制),同时也可通过build.nvidia.com和NVIDIA NIM微服务形式部署。

Cosmos 3定位为面向物理AI(Physical AI)的全模态(Omnimodel)世界基础模型,采用全新的混合Transformer架构(Mixture of Transformers),能够原生理解和生成文本、图像、视频、环境声以及动作五种模态。根据英伟达官方说法,这是全球首个完全开放的全模态模型,开发者可自由下载、进行后训练并转化为专有模型。

两个版本各有侧重:Super版本面向需要最高物理精度的后训练机器人和自动驾驶模型开发;Nano版本则针对高质量视频和动作推理的低延迟场景优化。此外,面向边缘端实时推理的Edge版本预计将于近期发布。

据英伟达博客此前披露,Cosmos系列模型已基于2000万小时的真实世界数据(涵盖人类互动、工业环境、机器人及驾驶场景)训练了9万亿个token,配合NVIDIA Omniverse可实现高保真物理仿真。1X、Agility Robotics、Figure AI、Skild AI、Uber等多家企业已在利用Cosmos平台加速其物理AI模型的训练。