ITCOW牛新网 5月22日消息,智谱今日宣布面向部分企业客户开放GLM-5.1高速版API,即“GLM-5.1-highspeed”。这一新模型以每秒400 tokens的输出速度,刷新了当前全球大模型厂商API的速度上限。更重要的是,它打破了行业内“高速即轻量”的固有印象,首次在国产大模型中将旗舰级的模型能力与极致的低延迟同时带入了生产环境,让用户无需为了响应速度而牺牲模型质量。

据ITCOW牛新网了解,该API由智谱GLM团队与TileRT团队联合打造,在推理引擎、调度系统及底层基础设施三个层面进行了深度的系统级优化。在推理引擎层,团队针对GLM-5.1的架构特点重写了核心推理路径以提升单卡吞吐;调度系统层则通过动态批处理、请求合并和KV缓存调度优化,有效降低了高并发场景下的尾延迟;而在基础设施层,通过对推理集群部署、网络链路及负载均衡的协同优化,确保了400 TPS并非短暂的峰值数字,而是稳定可用的生产级能力。
此次速度突破的核心在于TileRT高性能推理引擎的技术革新。传统推理框架多以算子为基本调度单元,在微秒级场景下会产生显著的调度与同步开销。TileRT则彻底抛弃了Runtime层的动态调度,在编译期(AOT)将整个计算图静态编排为一个常驻GPU的持久化引擎内核(Persistent Engine Kernel)。在单卡内部,计算、异步IO与通信被拆解为Tile级微任务,中间结果不再写回全局内存,而是通过寄存器、共享内存与L2缓存直接传输;在多卡尺度上,它还将Warp特化思路外推至整张8卡NVL拓扑,根据不同GPU的计算密度与数据依赖将其特化为不同角色,从而大幅压缩了执行间隙。
GLM-5.1高速版特别适用于AI编程、实时交互、商业决策及实时语音等对响应延迟要求极高的场景。例如在AI编程(Coding Agent)任务中,它实现了“即问即答”的体感,代码生成效率提升约10倍,并能同步理解工程上下文;在3D场景建模中,可实现文字输入与场景的实时联动。目前,该服务已面向智谱MaaS平台的部分企业客户开放,标志着大模型推理速度正式成为继参数规模之后的下一个重要Scaling Law。