web-supplemented 2026-05-22 11:18 MiniMax-M2.7

智谱AI推出GLM-5.1高速版API，400 tokens/s刷新全球大模型速度纪录

智谱AI面向企业客户发布GLM-5.1高速版API，通过与TileRT团队联合研发的高性能推理引擎实现400 tokens/s的输出速度，刷新全球大模型官方接口端到端速度上限。

智谱AIGLM-5.1大模型API人工智能高性能推理

References

智谱AI推出GLM-5.1高速版API，400 tokens/s刷新全球纪录

智谱AI于5月22日宣布面向部分企业客户开放GLM-5.1高速版API（GLM-5.1-highspeed），模型输出速度达到400 tokens/s，首次在国产大模型厂商中实现全球领先的速度突破。

该高速版本在完整保留原有旗舰模型能力的基础上，通过智谱与TileRT团队联合研发的高性能推理引擎进行驱动。该引擎彻底重构了GPU运行调度机制，在编译期将模型静态编排为一个常驻GPU的persistent Engine Kernel。

单卡推理时，计算、异步IO与通信被全部拆解为tile级微任务，仅启动一次kernel。算子间的中间结果通过寄存器和共享缓存直传，消除了传统推理中频繁内核启动与显存读写带来的延迟空泡。

在多卡扩展场景中，TileRT进一步将specialization并行思路扩展至8卡NVL拓扑，将原本同构的GPU节点特化为承担不同任务的异构Worker。

这一设计实现了计算与跨卡通信的深度重叠，显著提升整体推理效率。

智谱AI股价当日创历史新高。目前GLM-5.1高速版服务已面向MaaS平台部分企业客户开放。

据此前报道，GLM-5.1发布后，包括字节跳动（TRAE编程助手）、阿里巴巴（Qoder）、腾讯（CodeBuddy/WorkBuddy）、百度（智能云千帆平台）、美团、快手等头部互联网厂商均已完成深度集成，国产算力芯片厂商如壁仞科技、海光信息、沐曦股份、清微智能也实现了"Day0全栈适配"。

未来，智谱AI计划进一步优化FP8推理与超长上下文生产环境，为AI编程、实时交互、实时语音等低延迟敏感场景提供更具确定性的性能支持。