MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Cerebras晶圆级芯片助力Kimi K2.6长文本推理提速29倍

Cerebras在企业测试中上线万亿参数大模型Kimi K2.6,通过整张12英寸晶圆级芯片消除通信瓶颈,实现981 tokens/s生成速度,较主流GPU云服务提速6.7倍。

References

Cerebras近日宣布在企业测试中上线万亿参数大模型Kimi K2.6,其生成速度实测达到981 tokens/s,较主流GPU云服务快6.7倍。

晶圆级架构颠覆传统互联瓶颈

Kimi K2.6基于Cerebras第三代晶圆级引擎WSE-3,该芯片将整张12英寸晶圆直接作为单颗芯片使用,集成了约4万亿晶体管和超过90万个AI计算核心,面积约为英伟达GPU的58倍。通过将计算、存储、网络通信全部集成于单颗晶圆上,彻底消除了传统GPU集群中的板级通信延迟问题。

实测数据显示,在10000输入+500输出token的长文本任务中,Kimi K2.6总响应耗时从Kimi官方接口的163.7秒大幅缩短至5.6秒,提速高达29倍。其物理通信带宽达到英伟达NVL72架构中NVLink的200倍以上。

精度与效率的平衡

为实现实时化运行,Kimi K2.6采用4-bit权重进行低损存储,计算时使用16-bit浮点数维持精度,并配合定制算子内核与推测性解码技术。这一设计在大幅降低内存占用的同时,确保了模型输出的数学精度。

背景:Cerebras上市后联手OpenAI

就在本月14日,Cerebras以股票代码"CBRS"登陆纳斯达克,IPO发行价每股185美元,首日大涨68.15%,市值约950亿美元,成为2026年以来美国最大规模IPO,也是2019年以来美国科技公司最大IPO。上市前夕,Cerebras与OpenAI达成重磅战略合作:OpenAI承诺未来数年投入超200亿美元采购Cerebras算力容量(约750兆瓦),并提供10亿美元营运资金贷款。

随着AI产业从模型训练转向大规模推理部署,Cerebras的晶圆级芯片被视为高效能推理芯片的代表性方案。