SpaceX自研C语言AI训练框架接近完工,剑指Grok v5全量训练
马斯克近日在X平台透露,SpaceX内部AI训练栈开发取得重大进展——用纯C语言编写的新一代训练框架V1.0版本已基本完成,即将投入使用。
专为超大规模集群设计
据悉,这套自研训练栈在硬件适配层面实现了精准优化,专门面向由22万块英伟达GB300加速卡与800G网卡组成的超大规模计算集群。GB300是英伟达2026年推出的Blackwell Ultra架构新品,属于机架级全液冷系统,将计算、网络与基础设施深度整合。
在架构设计上,团队选择极度贴近裸金属(bare metal)底层,并大规模采用**流水线并行(pipeline parallelism)**技术,以充分释放底层算力。马斯克透露,在应对超大规模训练任务时,纯C语言编写的新框架相比谷歌主流AI框架JAX,潜在运行速度可提升一个数量级以上(即10倍以上)。
整合xAI后的战略调整
值得注意的是,这一自研训练栈的推进正值SpaceX全面整合xAI的关键节点。今年5月,马斯克宣布解散xAI并将其并入SpaceX,组建SpaceXAI。合并初期经历了剧烈动荡——预训练团队规模大幅缩减,多位技术负责人相继离职。
与此同时,SpaceX将原有的Colossus 1超级计算集群(约22万块GPU)整体租给Anthropic用于支持Claude模型的训练,而SpaceX自身的AI训练工作已迁移至新一代的Colossus 2集群。
Grok v5训练指日可待
新训练栈将直接服务于SpaceX旗下Grok系列大模型的迭代开发。据此前披露的信息,xAI目前有7个模型同时在Colossus 2上训练,其中Grok 5的参数量将达到6万亿至10万亿级别。
结合自研C语言训练框架接近完工的进展,SpaceX似乎正在加速弥补此前整合期的人员流失影响,以尽快推进Grok v5的全量训练与迭代。
该信息基于马斯克X平台动态及相关公开报道整理。