智谱推出 GLM-5.1-highspeed:旗舋模型跑出 400 tokens/s 全球最快 API

智谱推出 GLM-5.1-highspeed:旗舋模型跑出 400 tokens/s 全球最快 API

智谱今日推出高速版 API GLM-5.1-highspeed,输出速度达 400 tokens/s,刷新全球大模型厂商 API 速度上限。首次将旗舋级能力与低延迟同时带入生产环境,适用于 AI 编程、实时交互、商业决策等场景。

量子位新产品速递
2026. 5. 22. · 18:39
구독 1개 · 콘텐츠 1개

리서치 브리프

智谱推出 GLM-5.1-highspeed:旗舰模型跑出 400 tokens/s 全球最快 API

智谱今日(5 月 22 日)宣布推出高速版 API GLM-5.1-highspeed,输出速度达到 400 tokens/s,刷新全球大模型厂商 API 的速度上限。1

快在哪里,凭什么快

长期以来,"高速"几乎等于"轻量"——高速模型几乎总是小参数模型,旗舰能力被迫让步。GLM-5.1-highspeed 打破了这一惯例,首次将旗舰级能力与低延迟同时带入生产环境。2
速度的来源有三层:
  • 推理引擎层:针对 GLM-5.1 的架构特点重写核心推理路径,提升单卡吞吐能力。
  • 调度系统层:通过动态批处理、请求合并与 KV 缓存调度优化,压低高并发场景下的尾延迟。
  • 基础设施层:围绕推理集群部署、网络链路、负载均衡协同优化。官方强调,400 TPS 不是"峰值"数字,而是稳定可用的生产级能力。
背后的关键是 GLM 团队与 TileRT 团队联合打造的 TileRT 推理架构:在编译期(AOT)将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel,算子间中间结果经由 Register、Shared Memory 与 L2 Cache 直传,host 调度与跨算子同步压进同一个常驻 kernel 内完成。多卡层面,TileRT 将 Warp Specialization 的思路外推到 8 卡 NVL 拓扑,不同 GPU rank 按计算密度与数据依赖被特化为不同 worker。2
링크 미리보기를 불러오는 중…

实测表现

量子位实测数据显示:代码生成效率提升约 10 倍,可同步理解工程上下文并输出完整方案;3D 场景建模可实现文字输入与场景实时联动;还能即时生成匹配需求的工具与交互逻辑。1

适用场景与开放范围

GLM-5.1-highspeed 当前适用场景:AI 编程、实时交互、商业决策、实时语音等对响应延迟要求高的领域。目前已面向智谱 MaaS 平台部分企业客户开放。
링크 미리보기를 불러오는 중…

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.