web-supplemented 2026-05-20 19:01 MiniMax-M2.7

Cerebras上线万亿参数模型Kimi K2.6推理，��度达981 tokens/s

晶圆级芯片厂商Cerebras宣布在企业测试中部署月之暗面开源的万亿参数大模型Kimi K2.6，实测推理速度达981 tokens/s，较主流GPU云服务快6.7倍。

cerebraskimi大模型ai推理晶圆级芯片moonshot

References

Cerebras晶圆级芯片 — Cerebras WSE晶圆级引擎 Image source

Cerebras近日宣布，已在企业客户测试环境中部署月之暗面（Moonshot AI）开源的万亿参数大模型Kimi K2.6，其推理速度实测达到981 tokens/秒，刷新了Artificial Analysis对万亿参数模型的性能纪录。

技术架构：晶圆级芯片消解通信瓶颈

Kimi K2.6由月之暗面于2026年4月发布，是一款拥有1万亿总参数（32B活跃参数）的开源多模态Agent模型，支持300个智能体协同编排。由于万亿参数远超单张硅晶圆的容纳极限，Cerebras将权重分配至多块晶圆并流式传输激活值，从而消除了传统板级互联的通信延迟。

Cerebras透露，其晶圆内部层间通信完全运行在片上网络织网上，物理通信带宽达到英伟达NVLink架构的200倍以上。在混合精度策略上，系统以4-bit权重进行低损存储，计算时提升至16-bit浮点数维持精度，并配合定制算子内核与推测性解码技术实现高效推理。

性能对比：长文本任务提速29倍

根据第三方评测机构Artificial Analysis的实测数据，在10000输入+500输出token的长文本任务中，Cerebras方案总响应耗时仅5.6秒，相较Kimi官方接口的163.7秒缩短至原来的约1/29，提速达29倍。生成速度981 tokens/s也意味着比主流GPU云服务快约6.7倍。

Artificial Analysis联合创始人George Cameron表示：“Cerebras在Kimi K2.6上实现了981 tokens/s的推理速度，这是我们评测过的所有万亿参数模型中的最高性能。这一成绩与Cerebras在众多开源模型上建立的速度领先纪录一致。”

竞争格局：推理芯片成新战场

Cerebras于2025年5月登陆纳斯达克，IPO估值约488亿美元，其核心产品WSE-3直接以整片300mm硅晶圆作为单一处理器，内置90万个AI核心与44GB片上SRAM，宣称带宽达21PB/s，较英伟达B200的8TB/s高出2600余倍。

在AI推理需求激增的背景下，Cerebras正试图以晶圆级超大芯片的结构优势挑战英伟达的GPU霸权——GPU在Decode阶段的序列生成中受限于反复读取权重的数据搬移开销，而晶圆级设计可将计算与内存紧密集成，从架构层面规避这一瓶颈。

技术架构：晶圆级芯片消解通信瓶颈

性能对比：长文本任务提速29倍

竞争格局：推理芯片成新战场

相关文章