智谱推出 GLM-5.1-highspeed：旗舰模型跑出 400 tokens/s 全球最快 API

智谱今日（5 月 22 日）宣布推出高速版 API GLM-5.1-highspeed，输出速度达到 400 tokens/s，刷新全球大模型厂商 API 的速度上限。1

快在哪里，凭什么快

长期以来，"高速"几乎等于"轻量"——高速模型几乎总是小参数模型，旗舰能力被迫让步。GLM-5.1-highspeed 打破了这一惯例，首次将旗舰级能力与低延迟同时带入生产环境。2

速度的来源有三层：

推理引擎层：针对 GLM-5.1 的架构特点重写核心推理路径，提升单卡吞吐能力。
调度系统层：通过动态批处理、请求合并与 KV 缓存调度优化，压低高并发场景下的尾延迟。
基础设施层：围绕推理集群部署、网络链路、负载均衡协同优化。官方强调，400 TPS 不是"峰值"数字，而是稳定可用的生产级能力。

背后的关键是 GLM 团队与 TileRT 团队联合打造的 TileRT 推理架构：在编译期（AOT）将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel，算子间中间结果经由 Register、Shared Memory 与 L2 Cache 直传，host 调度与跨算子同步压进同一个常驻 kernel 内完成。多卡层面，TileRT 将 Warp Specialization 的思路外推到 8 卡 NVL 拓扑，不同 GPU rank 按计算密度与数据依赖被特化为不同 worker。2

www.ithome.com

링크 미리보기를 불러오는 중…

实测表现

量子位实测数据显示：代码生成效率提升约 10 倍，可同步理解工程上下文并输出完整方案；3D 场景建模可实现文字输入与场景实时联动；还能即时生成匹配需求的工具与交互逻辑。1

适用场景与开放范围

GLM-5.1-highspeed 当前适用场景：AI 编程、实时交互、商业决策、实时语音等对响应延迟要求高的领域。目前已面向智谱 MaaS 平台部分企业客户开放。

docs.bigmodel.cn

링크 미리보기를 불러오는 중…

智谱推出 GLM-5.1-highspeed：旗舋模型跑出 400 tokens/s 全球最快 API

智谱推出 GLM-5.1-highspeed：旗舰模型跑出 400 tokens/s 全球最快 API

快在哪里，凭什么快

实测表现

适用场景与开放范围

참고 출처