web-supplemented 2026-05-10 12:27 MiniMax-M2.7

Sakana AI联合英伟达开源TwELL稀疏格式：H100推理提速30%，跳过八成无效计算

Sakana AI与英伟达联合发布TwELL稀疏数据格式，通过跳过FFN层中近80%的「休眠神经元」激活，让H100推理速度提升30%、训练提速24%，在不损失模型准确率的前提下大幅降低显存占用。

sakana ai英伟达twell稀疏计算大模型优化h100ffn层

References

Sakana AI联合英伟达开源TwELL稀疏格式：GPU推理提速30%，跳过八成无效计算

日本AI初创公司Sakana AI近日与英伟达联合开源了名为TwELL的稀疏数据格式及配套加速内核。该技术能让GPU在运行大语言模型时跳过约80%的无效计算（H100推理速度提升30%、训练提速24%），且不损失模型准确率，同时显著降低峰值显存占用。

核心技术：跳过「休眠神经元」

大模型的前馈层（FFN）占据了绝大部分参数和算力。然而研究发现，每次生成文字时，FFN中有超过80%的神经元处于「休眠状态」（激活值接近零），对最终输出毫无贡献。传统方法试图直接剔除这些无效数据，但现代GPU天生擅长密集矩阵运算——挑出散落的有效数据需要大量跨区域寻址，全局显存读写开销反而抵消了节省的算力，得不偿失。

TwELL格式的设计完全顺应GPU并行逻辑：不再跨区域拼凑非零数据，而是将数据切分为GPU最擅长处理的小方块（tile）。各计算核心可在本地直接打包有效数据，彻底省去耗时的全局显存读写，完美融入现代芯片的加速流水线。

实测：1.5亿参数模型，非零激活比例压至2%以下

在15亿参数模型的测试中，仅需在训练时添加轻微正则化，就能将真正需要计算的神经元比例压缩至不足2%，且七项下游任务的模型表现均未下降。数据还揭示了一个规律：模型参数量越大，休眠神经元越多——20亿参数模型的非零比例比5亿模型还要低38%。这意味着，随着未来追求更大规模模型，这套针对底层硬件的优化将释放更可观的性能红利。

意义与影响

该技术不依赖模型架构重设计，只需在训练阶段加入正则化即可实现稀疏化，具备良好的通用性和迁移潜力。随着模型规模持续增长，GPU稀疏计算能力将成为突破算力瓶颈的关键路径之一。

Sakana AI联合英伟达开源TwELL稀疏格式：GPU推理提速30%，跳过八成无效计算

核心技术：跳过「休眠神经元」

实测：1.5亿参数模型，非零激活比例压至2%以下

意义与影响

相关文章