MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Sakana AI联合英伟达开源TwELL稀疏格式:H100推理提速30%,跳过八成无效计算

Sakana AI与英伟达联合发布TwELL稀疏数据格式,通过跳过FFN层中近80%的「休眠神经元」激活,让H100推理速度提升30%、训练提速24%,在不损失模型准确率的前提下大幅降低显存占用。

References

Sakana AI联合英伟达开源TwELL稀疏格式:GPU推理提速30%,跳过八成无效计算

日本AI初创公司Sakana AI近日与英伟达联合开源了名为TwELL的稀疏数据格式及配套加速内核。该技术能让GPU在运行大语言模型时跳过约80%的无效计算(H100推理速度提升30%、训练提速24%),且不损失模型准确率,同时显著降低峰值显存占用。

核心技术:跳过「休眠神经元」

大模型的前馈层(FFN)占据了绝大部分参数和算力。然而研究发现,每次生成文字时,FFN中有超过80%的神经元处于「休眠状态」(激活值接近零),对最终输出毫无贡献。传统方法试图直接剔除这些无效数据,但现代GPU天生擅长密集矩阵运算——挑出散落的有效数据需要大量跨区域寻址,全局显存读写开销反而抵消了节省的算力,得不偿失。

TwELL格式的设计完全顺应GPU并行逻辑:不再跨区域拼凑非零数据,而是将数据切分为GPU最擅长处理的小方块(tile)。各计算核心可在本地直接打包有效数据,彻底省去耗时的全局显存读写,完美融入现代芯片的加速流水线。

实测:1.5亿参数模型,非零激活比例压至2%以下

在15亿参数模型的测试中,仅需在训练时添加轻微正则化,就能将真正需要计算的神经元比例压缩至不足2%,且七项下游任务的模型表现均未下降。数据还揭示了一个规律:模型参数量越大,休眠神经元越多——20亿参数模型的非零比例比5亿模型还要低38%。这意味着,随着未来追求更大规模模型,这套针对底层硬件的优化将释放更可观的性能红利。

意义与影响

该技术不依赖模型架构重设计,只需在训练阶段加入正则化即可实现稀疏化,具备良好的通用性和迁移潜力。随着模型规模持续增长,GPU稀疏计算能力将成为突破算力瓶颈的关键路径之一。