MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Cerebras上线万亿参数模型Kimi K2.6推理,���度达981 tokens/s

晶圆级芯片厂商Cerebras宣布在企业测试中部署月之暗面开源的万亿参数大模型Kimi K2.6,实测推理速度达981 tokens/s,较主流GPU云服务快6.7倍。

References

Cerebras晶圆级芯片
Cerebras WSE晶圆级引擎 Image source

Cerebras近日宣布,已在企业客户测试环境中部署月之暗面(Moonshot AI)开源的万亿参数大模型Kimi K2.6,其推理速度实测达到981 tokens/秒,刷新了Artificial Analysis对万亿参数模型的性能纪录。

技术架构:晶圆级芯片消解通信瓶颈

Kimi K2.6由月之暗面于2026年4月发布,是一款拥有1万亿总参数(32B活跃参数)的开源多模态Agent模型,支持300个智能体协同编排。由于万亿参数远超单张硅晶圆的容纳极限,Cerebras将权重分配至多块晶圆并流式传输激活值,从而消除了传统板级互联的通信延迟。

Cerebras透露,其晶圆内部层间通信完全运行在片上网络织网上,物理通信带宽达到英伟达NVLink架构的200倍以上。在混合精度策略上,系统以4-bit权重进行低损存储,计算时提升至16-bit浮点数维持精度,并配合定制算子内核与推测性解码技术实现高效推理。

性能对比:长文本任务提速29倍

根据第三方评测机构Artificial Analysis的实测数据,在10000输入+500输出token的长文本任务中,Cerebras方案总响应耗时仅5.6秒,相较Kimi官方接口的163.7秒缩短至原来的约1/29,提速达29倍。生成速度981 tokens/s也意味着比主流GPU云服务快约6.7倍。

Artificial Analysis联合创始人George Cameron表示:“Cerebras在Kimi K2.6上实现了981 tokens/s的推理速度,这是我们评测过的所有万亿参数模型中的最高性能。这一成绩与Cerebras在众多开源模型上建立的速度领先纪录一致。”

竞争格局:推理芯片成新战场

Cerebras于2025年5月登陆纳斯达克,IPO估值约488亿美元,其核心产品WSE-3直接以整片300mm硅晶圆作为单一处理器,内置90万个AI核心与44GB片上SRAM,宣称带宽达21PB/s,较英伟达B200的8TB/s高出2600余倍。

在AI推理需求激增的背景下,Cerebras正试图以晶圆级超大芯片的结构优势挑战英伟达的GPU霸权——GPU在Decode阶段的序列生成中受限于反复读取权重的数据搬移开销,而晶圆级设计可将计算与内存紧密集成,从架构层面规避这一瓶颈。