MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

面壁智能联合清华发布BitCPM-CANN:首个昇腾原生1.58比特三元大模型训练系统

面壁智能、清华大学与OpenBMB联合发布全球首个基于华为昇腾910B NPU全栈训练的1.58比特三元大语言模型训练系统BitCPM-CANN,可在保持95.7%-97.2%全精度性能的同时实现约6倍显存降低。

References

BitCPM4-CANN-8B模型卡片
BitCPM4-CANN系列模型已上线Hugging Face Image source

面壁智能联合清华发布BitCPM-CANN:首个昇腾原生1.58比特三元大模型训练系统

面壁智能、清华大学与OpenBMB社区联合发布了BitCPM-CANN,这是全球首个完全基于华为昇腾910B NPU构建的端到端1.58比特(三值化)大语言模型训练系统。该系统将模型权重极简压缩为-1、0、1三个状态,在显著降低显存占用的同时还能将芯片中高能耗的浮点乘法运算替换为简单的加减法。

技术实现:QAT+Mega tron-LM+MindSpeed完整栈

该系统的核心创新在于将**量化感知训练(QAT)**深度集成到Megatron-LM分布式训练框架中,并结合MindSpeed加速库,实现了从自定义三元算子到底层昇腾910B分布式并行训练的完整技术栈覆盖。这不仅打通了硬件层面的计算优化,也为国产AI芯片在大模型训练领域提供了新的技术路径。

性能表现:6倍显存降低,精度损失不足5%

团队同步推出0.5B、1B、3B、8B四个规模的BitCPM4-CANN系列模型,并在11个基准测试上与全精度MiniCPM4进行对比评估。结果显示,1B、3B和8B三元版本分别保留了对应尺寸全精度原版模型**97.1%、97.2%和95.7%**的平均性能;即便是参数规模最小的0.5B版本,也达到了90.1%的精度保留率。

值得注意的是,尽管8B版本由于承载高频复杂知识导致量化保留率相对略低,但其绝对能力(77.84分)依然远超三元版3B(72.32分),在大幅降低部署门槛的同时维持了强劲的模型智商。

在资源效率方面,该系统在昇腾910B上的量化训练吞吐达到148 TFLOP/s,相比全精度的155 TFLOP/s,额外计算开销仅约4.5%-5%,真正实现了"几乎无损"的极低比特训练。

伪量化格式:零门槛端侧部署

本次发布采用的是**伪量化(pseudo-quantized)**方案——模型权重已受三元约束,但物理上仍以浮点格式保存。这一设计使得用户可以像加载普通模型一样,直接使用Transformers库加载BitCPM-CANN系列模型,无需依赖任何专用量化库或特殊工具链,极大降低了在手机、PC等端侧设备上的部署门槛。

目前该系列模型已在Hugging Face上线,支持vLLM、SGLang等主流推理框架,为开发者提供了开箱即用的极简比特大模型体验。


BitCPM-CANN的发布标志着国产AI芯片在大模型极低比特训练领域取得重要突破,为实现"更小体积、更低功耗、更高效率"的端侧AI应用奠定了坚实基础。