Sakana AI联合英伟达开源TwELL稀疏格式:GPU推理提速30%,跳过八成无效计算
日本AI初创公司Sakana AI近日与英伟达联合开源了名为TwELL的稀疏数据格式及配套加速内核。该技术能让GPU在运行大语言模型时跳过约80%的无效计算(H100推理速度提升30%、训练提速24%),且不损失模型准确率,同时显著降低峰值显存占用。
核心技术:跳过「休眠神经元」
大模型的前馈层(FFN)占据了绝大部分参数和算力。然而研究发现,每次生成文字时,FFN中有超过80%的神经元处于「休眠状态」(激活值接近零),对最终输出毫无贡献。传统方法试图直接剔除这些无效数据,但现代GPU天生擅长密集矩阵运算——挑出散落的有效数据需要大量跨区域寻址,全局显存读写开销反而抵消了节省的算力,得不偿失。
TwELL格式的设计完全顺应GPU并行逻辑:不再跨区域拼凑非零数据,而是将数据切分为GPU最擅长处理的小方块(tile)。各计算核心可在本地直接打包有效数据,彻底省去耗时的全局显存读写,完美融入现代芯片的加速流水线。
实测:1.5亿参数模型,非零激活比例压至2%以下
在15亿参数模型的测试中,仅需在训练时添加轻微正则化,就能将真正需要计算的神经元比例压缩至不足2%,且七项下游任务的模型表现均未下降。数据还揭示了一个规律:模型参数量越大,休眠神经元越多——20亿参数模型的非零比例比5亿模型还要低38%。这意味着,随着未来追求更大规模模型,这套针对底层硬件的优化将释放更可观的性能红利。
意义与影响
该技术不依赖模型架构重设计,只需在训练阶段加入正则化即可实现稀疏化,具备良好的通用性和迁移潜力。随着模型规模持续增长,GPU稀疏计算能力将成为突破算力瓶颈的关键路径之一。