Cerebras近日宣布,已在企业客户测试环境中部署月之暗面(Moonshot AI)开源的万亿参数大模型Kimi K2.6,其推理速度实测达到981 tokens/秒,刷新了Artificial Analysis对万亿参数模型的性能纪录。
技术架构:晶圆级芯片消解通信瓶颈
Kimi K2.6由月之暗面于2026年4月发布,是一款拥有1万亿总参数(32B活跃参数)的开源多模态Agent模型,支持300个智能体协同编排。由于万亿参数远超单张硅晶圆的容纳极限,Cerebras将权重分配至多块晶圆并流式传输激活值,从而消除了传统板级互联的通信延迟。
Cerebras透露,其晶圆内部层间通信完全运行在片上网络织网上,物理通信带宽达到英伟达NVLink架构的200倍以上。在混合精度策略上,系统以4-bit权重进行低损存储,计算时提升至16-bit浮点数维持精度,并配合定制算子内核与推测性解码技术实现高效推理。
性能对比:长文本任务提速29倍
根据第三方评测机构Artificial Analysis的实测数据,在10000输入+500输出token的长文本任务中,Cerebras方案总响应耗时仅5.6秒,相较Kimi官方接口的163.7秒缩短至原来的约1/29,提速达29倍。生成速度981 tokens/s也意味着比主流GPU云服务快约6.7倍。
Artificial Analysis联合创始人George Cameron表示:“Cerebras在Kimi K2.6上实现了981 tokens/s的推理速度,这是我们评测过的所有万亿参数模型中的最高性能。这一成绩与Cerebras在众多开源模型上建立的速度领先纪录一致。”
竞争格局:推理芯片成新战场
Cerebras于2025年5月登陆纳斯达克,IPO估值约488亿美元,其核心产品WSE-3直接以整片300mm硅晶圆作为单一处理器,内置90万个AI核心与44GB片上SRAM,宣称带宽达21PB/s,较英伟达B200的8TB/s高出2600余倍。
在AI推理需求激增的背景下,Cerebras正试图以晶圆级超大芯片的结构优势挑战英伟达的GPU霸权——GPU在Decode阶段的序列生成中受限于反复读取权重的数据搬移开销,而晶圆级设计可将计算与内存紧密集成,从架构层面规避这一瓶颈。