智谱AI推出GLM-5.1高速版API,400 tokens/s刷新全球纪录
智谱AI于5月22日宣布面向部分企业客户开放GLM-5.1高速版API(GLM-5.1-highspeed),模型输出速度达到400 tokens/s,首次在国产大模型厂商中实现全球领先的速度突破。
技术突破:TileRT引擎重构GPU调度
该高速版本在完整保留原有旗舰模型能力的基础上,通过智谱与TileRT团队联合研发的高性能推理引擎进行驱动。该引擎彻底重构了GPU运行调度机制,在编译期将模型静态编排为一个常驻GPU的persistent Engine Kernel。
单卡推理时,计算、异步IO与通信被全部拆解为tile级微任务,仅启动一次kernel。算子间的中间结果通过寄存器和共享缓存直传,消除了传统推理中频繁内核启动与显存读写带来的延迟空泡。
多卡并行:8卡NVL拓扑异构优化
在多卡扩展场景中,TileRT进一步将specialization并行思路扩展至8卡NVL拓扑,将原本同构的GPU节点特化为承担不同任务的异构Worker。
- GPU 0:运行稀疏索引Worker,负责稀疏索引构建与路由决策
- GPU 1-7:运行MLA Worker,负责计算密集阶段,将通信完全下沉至tile级任务流水线内部
这一设计实现了计算与跨卡通信的深度重叠,显著提升整体推理效率。
落地场景与未来规划
智谱AI股价当日创历史新高。目前GLM-5.1高速版服务已面向MaaS平台部分企业客户开放。
据此前报道,GLM-5.1发布后,包括字节跳动(TRAE编程助手)、阿里巴巴(Qoder)、腾讯(CodeBuddy/WorkBuddy)、百度(智能云千帆平台)、美团、快手等头部互联网厂商均已完成深度集成,国产算力芯片厂商如壁仞科技、海光信息、沐曦股份、清微智能也实现了"Day0全栈适配"。
未来,智谱AI计划进一步优化FP8推理与超长上下文生产环境,为AI编程、实时交互、实时语音等低延迟敏感场景提供更具确定性的性能支持。