用智谱GLM-4.5做了个智能体后,我卸载了所有AI编程工具
黄哲铿,「顿悟山丘」创始人,科技博主,曾担任海尔、中通快递、1药网技术高管,著有《技术人修炼之道》《技术管理之巅》。的原生编程能力,我不会再考虑其它工具了,它能够完成我的大部分智能体开发需求,而且不需要你懂编程,只要描述清楚需求,剩下的交给它就行了。均支持混合推理模式,提供两种模式:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。接下来,实现信息检索、制定计划的功能,这部分需求描述
昨日,智谱发布了新一代旗舰模型GLM-4.5,引发了全球AI圈的关注。作为中国大模型领域的“国家队”代表,他们之前还被OpenAI视为主要竞争对手。
本次发布的GLM-4.5模型,据说在推理、代码、智能体综合能力方面,达到开源模型 SOTA 水平;在真实场景Agentic Coding对比评测中,实测结果国内最佳。并且GLM-4.5在Hugging Face 与ModelScope平台同步开源,模型权重遵循 MIT License。
01
综合性能SOTA,杀入全球大模型第一梯队
GLM-4.5 融合更多复杂推理、代码和智能体等多种通用能力并取得技术突破,首次在单个模型中实现将推理、编码和智能体能力原生融合,以满足智能体应用的复杂需求。
根据最具有代表性的12个评测,即MMLU Pro、AIME24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、BFCL v3和BrowseComp。综合平均分,GLM-4.5 取得了全球模型第三、国产模型第一,开源模型第一。
GLM-4.5 参数量为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但同样在多项标准基准测试中表现得更加出色,这得益于GLM模型的更高参数效率。在衡量模型代码能力的 SWE-Bench Verified 榜单上,GLM-4.5 系列位于性能/参数比帕累托前沿,这表明在相同规模下,GLM-4.5 系列实现了最佳性能。
在性能优化之外,GLM-4.5 系列也在成本和效率上实现突破,由此带来远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。
同时,高速版本实测生成速度超过 100 tokens/秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。
据官方介绍,GLM-4.5系列能够胜任全栈开发任务,编写较为复杂的应用、游戏、交互网页。
在实际应用当中,GLM-4.5模型能力和体验究竟如何呢?下面就跟随K哥一起上手实测。
02
用GLM-4.5手搓一个智能体后,
我卸载了所有AI编程工具
正好这两天在参加WAIC2025(世界人工智能大会),我想做个逛展智能体,来帮助我从100场论坛、800个展台当中挑选出我最感兴趣的,并且制定逛展计划,这个任务就交给GLM-4.5了。我们使用模型的原生能力,来开发这个功能和交互都相对复杂的Agent。
先打开网站:Z.ai
完整注册后,在左上角选择模型GLM-4.5。
在输入框下方看到:AI PPT、全栈开发、写代码、帮我写、搜信息等,选择「全栈开发」。
在让AI帮你开发之前,需要整理好需求,我们要开发的智能体要能够基于WAIC2025的信息,按照用户的要求进行检索、制定逛展计划,界面交互简洁友好。
还要解决数据来源的问题,我把“WAIC2025媒体指南”电子版上传到Z.ai。
然后把梳理好的需求,整理成提示词,如下:
开发一个“WAIC2025逛展智能体”,功能点如下: 1、根据用户的要求检索展会信息... 2、基于用户输入,调用大模型GLM-4.5能力,理解用户需求,根据“WAIC2025的信息”制定规划逛展计划... 3、提醒功能:根据制定的计划,在论坛或活动开始前1小时弹窗提醒... 4、界面设计... |
将提示词输入后,开发工作就开始了。界面左侧是编码过程,右侧是程序预览界面。
整个编码任务被拆分成4个部分:分析图片数据和构建会展信息库、设计界面布局组件、实现会展信息检索、实现逛展计划、优化界面与交互。
首先执行的是:分析图片数据和构建会展信息库,模型能够根据图片内容构建会展信息数据库。
接下来,实现信息检索、制定计划的功能,这部分需求描述比较明确,所以实现起来比较快。
功能实现完毕,最后一步就是对界面布局交互的进一步优化,现在已经可以在右边看到界面效果了。
最后是项目总结,到这一步项目就算是执行结束了,整个过程都是基于GLM-4.5模型的原生能力生成的,真正实现了张张嘴就能编程。
下面就来看看逛展智能体的运行效果吧,点击左上方的小眼睛图标,就可以打开程序链接。
界面是我喜欢的赛博朋克风格,检索功能体验也十分流畅。
再体验下制定计划功能,输入关键字、选择日期,就可以生成一份专属逛展计划。
Z.ai还支持代码工程打包下载、代码发布,发布后就可以在线使用。
贴上这个智能体的链接,欢迎大家体验:
https://f0vbx6ngdgk1-deploy.space.z.ai
我之前尝试过Cursor、Codex等AI编程工具,体验完GLM-4.5的原生编程能力,我不会再考虑其它工具了,它能够完成我的大部分智能体开发需求,而且不需要你懂编程,只要描述清楚需求,剩下的交给它就行了。
03
GLM-4.5为什么这么强?源自技术创新
你一定好奇,为什么GLM-4.5能力这么强,下面我们看下模型的架构与技术实现。
GLM-4.5 采用混合专家(MoE)架构,包括 GLM-4.5:总参数量 3550 亿,激活参数为 320 亿;GLM-4.5-Air:总参数量 1060 亿,激活参数为 120 亿。
GLM-4.5 和 GLM-4.5-Air 均支持混合推理模式,提供两种模式:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。模型都是在 15 万亿 token 的通用数据上进行了预训练,然后在代码、推理、智能体等领域的8万亿 token 数据上进行了针对性训练,最后通过强化学习进一步增强了模型的推理、代码与智能体能力。
GLM-4.5 真正实现了高速、低成本。不仅API 调用价格便宜,还支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。
无论你是资深程序员还是编程小白,都能通过GLM-4.5快速构建应用,让技术服务于创意,让创意推动技术进步;“人人都是开发者”正在成为现实。
最后,给大家送个福利,智谱正推出“50块就能包月爽用GLM-4.5,调用量无上限”的活动,名额有限,不妨试试。
作者| Mr.K
编辑| Emma
号主简介
Mr.K,黄哲铿,「顿悟山丘」创始人,科技博主,曾担任海尔、中通快递、1药网技术高管,著有《技术人修炼之道》《技术管理之巅》。分享:AI产业观察、企业AI应用实践、领导者成长。
- END -
精选好文:
更多推荐
所有评论(0)