MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

视频模型训练成本揭秘:存储与网络带宽如何成为AI竞赛的新瓶颈

xAI前世界模型负责人Ethan He在播客中披露,海量视频数据训练的网络带宽费用可超单次23万美元,综合月度账单轻松突破数百万美元,存储与网络成本远超算力本身。

References

视频模型训练成本冰山:算力之下还有更贵的隐形成本

在AI大模型的军备竞赛中,GPU显卡的采购成本往往最引人注目,但真正的烧钱大户可能藏在数据传输的"最后一公里"里。

xAI前世界模型负责人Ethan He近日在Latent Space播客中披露了视频模型训练的基建成本细节,揭开了行业长期低估的隐形成本——网络带宽与数据存储费用

以10亿规模的互联网视频语料库为例:原始视频的物理存储需求约为5PB,在AWS等主流云平台上,静态存储5PB数据的月账单约10万美元。表面看已是不小开支,但真正的"吞金兽"是分布式训练中的网络流量。

经VAE(变分自编码器)压缩后,视频特征数据规模将膨胀至数十PB。在多次预训练迭代中,训练节点反复拉取和同步数据产生的网络带宽(egress/ingress)费用极其惊人——单次拉取海量视频特征即可产生超过23万美元的网络流量开支,导致单月综合存储与网费账单迅速突破数百万美元。

值得注意的是,xAI此前刚完成200亿美元(近1400亿人民币)E轮融资,连英伟达都作为战略投资者参与其中。这笔巨额融资背后,视频模型的训练基础设施成本显然是重要考量之一。

海量视频特征还导致训练过程呈现严重的IO-bound特性。为防止万卡集群因等待数据加载而算力闲置,团队必须投入大量工程资源优化分块缓存和管道式数据分派。这也解释了为何视频模型训练效率远低于同等参数量级的纯文本大模型——物理层面的数据传输瓶颈比算法瓶颈更难突破。

从GPU采购到网络账单,视频AI的竞争正在演变成一场"买得起显卡,交不起网费"的全链路烧钱战。