写点什么

GLM-4.5 发布,具有强大的推理、编码和代理能力

作者:Robert Krzaczyński

  • 2025-08-08
    北京
  • 本文字数:1001 字

    阅读完需:约 3 分钟

大小:550.59K时长:03:07
GLM-4.5发布,具有强大的推理、编码和代理能力

Zhipu AI发布了 GLM-4.5 和 GLM-4.5-Air。按照设计,这两个新 AI 模型可以在单一架构内处理推理、编码和代理任务。它们使用了双模式系统,可以在复杂问题解决和快速响应两种模式之间切换,从而提高准确性和速度。

 

GLM-4.5 总共有 355B 个参数,其中 32B 是活跃的,而它的轻量级版本 GLM-4.5-Air 则总共有 106B 个参数和 12B 的活跃参数。两个模型都使用专家混合(MoE)架构,并针对两种模式进行了优化:一种是“思考”模式,用于复杂推理和工具使用;另一种是“非思考”模式,用于快速响应。

 

GLM-4.5 的架构优先考虑深度而非广度——与 DeepSeek-V3 等模型形成了鲜明对比——并且每层使用 96 个注意力头。它还整合了 QK-Norm、分组查询注意力、多令牌预测和 Muon 优化器,加快收敛速度,改进推理性能。

 

训练是在一个有 22T 令牌的语料库上进行的,其中包括 7T 专门用于代码和推理的令牌,随后使用 Zhipu AI 自研的 slime RL 基础设施进行了强化学习。其设置中有一个异步代理 RL 训练管道,可以最大化吞吐量并支持长视距任务。

 

Zhipu AI 报告称,在涵盖代理任务、推理和编码的 12 个基准测试的综合排名中,GLM-4.5 位列第三,仅次于最顶级模型 OpenAI 和 Anthropic。GLM-4.5-Air 排名第六,超过了许多类似或规模更大的模型。


图片来源:Zhipu AI 博客

 

GLM-4.5 在编码基准测试中表现特别强势。它在 SWE-bench Verified 上达到了 64.2%,在 TerminalBench 上达到了 37.5%,这使得它在多个指标上领先于 Claude 4 Opus、GPT-4.1 和 Gemini 2.5 Pro。其工具调用成功率达到了 90.6%,超过了 Claude-4-Sonnet(89.5%)和 Kimi K2(86.2%)。

 

早期测试者对 GLM-4.5 的编码和代理能力给予了高度评价。一位 Reddit 用户分享道:

 

从初步比较来看,这些模型似乎非常好。GLM-4.5 在编码任务上似乎非常出色,而在我的代理研究和摘要基准测试中,GLM-4.5-Air 似乎比 Qwen 3 235B-a22b 2507 更好。

 

还有一位用户对 GLM 系列的速度和语言熟练度发表了看法:

 

GLM 令人印象非常深刻。我还没有尝试 4.5,但 4.1 Thinking Flash 在 Scolarius 的法语语言测试中得分约为 150/200——在我个人比较过的 19 个 LLM 中是最好的模型之一。速度也极快。

 

GLM-4.5 可以通过 Z.ai 直接使用,也可以通过Z.ai API调用,或集成到现有的编码代理工具如 Claude Code 或 Roo Code 中。Hugging Face和 ModelScope 提供了本地部署的模型权重,支持 vLLM 和 SGLang 推理框架。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/08/glm-4-5/

2025-08-08 16:007115

评论

发布
暂无评论

kafka 生产者分区策略演进

Geek_qsftko

kafka

【Docker 那些事儿】如何安全地进入到容器内部

Albert Edison

Docker Kubernetes 容器 云原生 7月月更

源码阅读

ES_her0

7月月更

聊聊消息中心的设计与实现逻辑

Java 架构

Mac M1 投屏软件scrcpy

IT蜗壳-Tango

7月月更

架构实战营|模块6

KDA

#架构实战营

拆分电商系统为微服务

Pengfei

spring 循环依赖

急需上岸的小谢

7月月更

Python 入门指南之错误和异常

海拥(haiyong.site)

7月月更

【玩转 RT-Thread】线程管理原理

攻城狮杰森

7月月更 RT-Thread

《看完就懂系列》谈谈数据埋点的原理与实现

南极一块修炼千年的大冰块

7月月更

SkyWalking原理浅析

技术小生

APM Skywalking 性能监控 7月月更

Python绘制精美可视化数据分析图表(一)-Matplotlib

迷彩

Python 可视化 matplotlib 7月月更

批量处理数据神器——Java数组与引用

未见花闻

7月月更

有赞们的逻辑变了吗?

科技新知

分布式事务(Seata)原理 详解篇,建议收藏

牧小农

Cgroup cpu,cpuacct子系统

总想做点什么

架构实战营模块六作业

融冰

不习惯的Vue3起步二 の alias别名、ref和reactive

空城机

Vue3 7月月更

读书笔记之《深入理解Java虚拟机:JVM高级特性与最佳实践》

蔡农曰

Java JVM 后端开发 后端技术

动态注册广播流程学习

北洋

Andriod 7月月更

DDD实战(11):冲刺1代码TDD实现之道

深清秋

DDD 软件架构设计 生鲜电商系统 7月月更

Java基础:集合框架之Collection(List,Set)

百思不得小赵

集合 Java’ 7月月更

电商系统微服务拆分

地下地上

架构师实战营

小程序视图容器

小恺

7月月更

图解网络:什么是 DNS 域名系统?

wljslmz

网络协议 DNS 网络技术 7月月更 域名系统

小程序电商业务微服务设计与基础设施选型

Geek_e8bfe4

电商系统微服务拆分(架构实战营 模块六作业)

Gor

【C 语言】进阶指针 Three

謓泽

7月月更

【刷题记录】6. Z 字形变换

WangNing

7月月更

架构实战营模块 6 作业

Naoki

架构实战营

GLM-4.5发布,具有强大的推理、编码和代理能力_AI&大模型_InfoQ精选文章