GLM-5.2 登顶开源模型排行榜:智谱这次真的能打了
昨天刷 Hacker News 的时候看到一条帖子,700 多分,标题说的是智谱的 GLM-5.2 拿下了 Artificial Analysis 智能指数的开源模型第一名。我当时第一反应是:又来?之前 DeepSeek V4 刚出来的时候也这么吹的。
但仔细看了看数据,这次好像不太一样。GLM-5.2 在智能指数上拿了 51 分,比 DeepSeek V4 Pro 的 44 分高了整整 7 分,比 MiniMax-M3 也高了 7 分。而且在 GDPval-AA v2 这个偏向实际 Agent 能力的测试上,直接跟 GPT-5.5 打了个平手。
说实话,智谱之前给我的印象一直是"还行但不够猛"。GLM-4 的时候跟一线模型差距明显,GLM-5 好了一些但也没到惊艳的程度。这次 5.2 版本突然跳这么高,我挺好奇到底发生了什么。
GLM-5.2 是个什么东西
先说说基本参数。GLM-5.2 是智谱(现在品牌叫 Z.ai)发布的开源大模型,总参数 744B,但用了 MoE(混合专家)架构,实际每次推理只激活 40B 参数。这意味着它虽然"体积"很大,但推理成本其实没有看起来那么夸张。
几个关键数据:
- 上下文窗口:1M tokens,从 GLM-5.1 的 200K 直接扩了 5 倍
- 许可证:MIT,完全开源,商用也没问题
- API 定价:输入 $1.4/M tokens,输出 $4.4/M tokens,缓存命中 $0.26/M tokens
- 第三方可用:DeepInfra、Novita、Nebius、Siliconflow 等平台都已上线
跟 GLM-5.1 比,5.2 的参数量完全一样(都是 744B/40B active),但智能指数高了 11 分。这种"同架构提分"的操作,大概率是在训练数据和后训练(post-training)上下了功夫。HN 上有人猜测智谱可能在训练过程中参考了 Opus 系列模型的输出,毕竟两者在思考模式上确实很像。当然这只是猜测,没有实锤。
排行榜上到底表现怎么样
Artificial Analysis 的智能指数 v4.1 是目前业界比较受认可的综合评测之一,不是那种刷题式的 benchmark,更偏向实际能力。GLM-5.2 在这个榜单上的表现:
- 智能指数总分:51(开源第一)
- 第二名:MiniMax-M3,44 分
- 第三名:DeepSeek V4 Pro (max),44 分
- 第四名:Kimi K2.6,43 分
几个单项的提升幅度挺大的:
- 科学推理(CritPt):比 5.1 提升 16 个百分点,达到 21%
- HLE(高难度推理):提升 12 个百分点,达到 40%
- TerminalBench v2.1:提升 16 个百分点,达到 78%
- GPQA Diamond:提升 3 个百分点,达到 89%
- AA-LCR:提升 9 个百分点,达到 71%
- tau3 banking:提升 15 个百分点,达到 27%
- SciCode:提升 7 个百分点,达到 50%
最有看头的是 GDPval-AA v2 这个测试。这个测试专门评估模型在实际 Agent 场景下的表现,比如工具调用、多轮对话、复杂任务执行等。GLM-5.2 拿了 1524 分,跟 GPT-5.5 (xhigh reasoning) 的 1514 分基本持平。也就是说,在 Agent 能力上,这个开源模型已经能跟 OpenAI 的旗舰打个有来有回了。
但是,token 消耗是个大问题
好消息说完了,说说让人头疼的地方。
GLM-5.2 每个任务平均消耗 43k output tokens,其中 37k 是推理 token。作为对比:
- GPT-5.5 xhigh:16k tokens
- GPT-5.5 high:10k tokens
- Fable 5:33k tokens
- Opus 4.8:41k tokens
- MiniMax-M3:24k tokens
- Kimi K2.6:35k tokens
- DeepSeek V4 Pro (max):37k tokens
也就是说,GLM-5.2 在"想清楚再回答"这件事上花的 token 是 GPT-5.5 的将近 3 倍。
我在 HN 评论区看到一个哥们说,他让 GLM-5.2 写一个 Nim 语言的数学表达式求值器(大概 400-600 行代码),模型光思考就花了 15 分钟,消耗了 45k tokens 才开始写第一行代码。
这个体验确实有点离谱。虽然 GLM-5.2 的 API 价格比 GPT-5.5 和 Opus 4.8 便宜很多,但如果你在意响应速度的话,这个 token 消耗量是个实打实的短板。
不过有个好消息是,从 Max 降到 High 档位,token 消耗能砍掉一半到三分之二,而且大部分任务的质量下降不明显。HN 上有用户实测说,GLM-5.2 High 和 Max 的质量差距很小,但 token 用量直接减半。所以日常使用的话,High 档位可能是性价比最高的选择。
跟 DeepSeek V4 比怎么样
这个大概是大家最关心的问题。毕竟在 GLM-5.2 之前,DeepSeek V4 是开源模型里的标杆。
智能指数:GLM-5.2 拿了 51 分,DeepSeek V4 Pro (max) 拿了 44 分。差距有 7 分,在排行榜上算是明显的优势了。
GDPval-AA v2(Agent 能力):GLM-5.2 拿了 1524 分,DeepSeek V4 Pro (max) 拿了 1328 分。差距接近 200 分,这在 Agent 场景下是很大的差距。
价格:DeepSeek V4 的 API 价格一直以便宜著称。从 Artificial Analysis 的数据来看,DeepSeek V4 Pro (max) 每个任务大约 $0.05,而 GLM-5.2 大约 $0.46。差了将近 10 倍。
token 效率:DeepSeek V4 Pro (max) 用 37k tokens,GLM-5.2 用 43k。差距不算大,但 GLM-5.2 确实更"啰嗦"一些。
中文能力:两者都是中国团队做的模型,中文水平都很不错。体感上差别不大,某些场景 GLM-5.2 更好,某些场景 DeepSeek V4 更好。这个很难量化,得看具体任务。
所以结论是:GLM-5.2 在能力上确实超过了 DeepSeek V4,但在成本和效率上,DeepSeek V4 依然有明显优势。选哪个取决于你的具体需求——如果追求最强能力,选 GLM-5.2;如果追求性价比,DeepSeek V4 可能更合适。
在 Pareto 前沿上的位置
Artificial Analysis 有一个很直观的图表,展示的是"智能 vs 每任务成本"的 Pareto 前沿。简单来说,就是在这个曲线上面的模型,要么更聪明,要么更便宜,或者两者兼得。
GLM-5.2 正好在这条 Pareto 曲线上,意思是:在它这个智能水平的模型里,它的成本是最低的。
具体数字:
- GLM-5.2:每任务约 $0.46
- Kimi K2.6:每任务约 $0.31(但智能指数低了 8 分)
- MiniMax-M3:每任务约 $0.18(但智能指数低了 7 分)
- DeepSeek V4 Pro (max):每任务约 $0.05(但智能指数低了 7 分)
如果你需要的是"开源模型里最强的",GLM-5.2 确实是当前最佳选择。但如果你的需求是"够用就行,越便宜越好",那 DeepSeek V4 或 MiniMax-M3 可能更合适。
这里有个容易忽略的细节:GLM-5.2 的 Pareto 位置说明了一个重要趋势 -- 开源模型正在逼近"智能-成本"曲线的最优区域。以前你要么选一个便宜但笨的模型,要么选一个聪明但贵的闭源模型。现在 GLM-5.2 在中间找到了一个不错的平衡点。当然,这个平衡点对不同人来说意义不同。如果你一个月只花几十美元用 API,那成本差异可以忽略不计;但如果你是企业级用户,每月 API 支出上万美元,那 10 倍的成本差距就很要命了。
幻觉率也改善了
除了智能指数,GLM-5.2 在 AA-Omniscience Index(幻觉评测)上也有进步,从 GLM-5.1 的 2 分涨到了 4 分。具体来看:
- 准确率:24.2% → 25.1%
- 幻觉率:29.4% → 28.1%
- 尝试率:47%(持平)
说实话,25% 的准确率和 28% 的幻觉率放在整个大模型领域算不上顶尖,但考虑到这是开源模型,而且比上一代有明显进步,方向是对的。
幻觉率这个问题,目前所有大模型都没彻底解决。GLM-5.2 至少在往好的方向走,而且它的"尝试率"(47%)说明模型不会在不确定的时候硬答,这一点比某些"什么都敢说"的模型要好。
实际怎么用
如果你想像我一样试试 GLM-5.2,有几种方式:
方式一:智谱开放平台
直接去 bigmodel.cn 注册账号,创建 API Key 就能用。Python 调用示例:
| 1 | |
| 2 | |
| 3 | |
| 4 | |
| 5 | |
| 6 | |
| 7 | |
| 8 | |
| 9 | |
| 10 | |
| 11 | |
方式二:OpenAI 兼容接口
智谱的 API 兼容 OpenAI 格式,所以你可以直接用 OpenAI 的 SDK:
| 1 | |
| 2 | |
| 3 | |
| 4 | |
| 5 | |
| 6 | |
| 7 | |
| 8 | |
| 9 | |
| 10 | |
| 11 | |
| 12 | |
| 13 | |
方式三:第三方平台
DeepInfra、Siliconflow、Novita 等平台都上线了 GLM-5.2。好处是可以跟其他模型放在一起比较,而且有些平台的价格可能比智谱官方更便宜。
如果你在用 Claude Code 或者其他支持自定义 API 的 AI 编程工具,可以把 GLM-5.2 作为一个备选模型接进去。有些场景下它的表现可能比你预期的好。
跟闭源模型比是什么水平
GLM-5.2 最让人惊讶的地方在于,它在 GDPval-AA v2 上跟 GPT-5.5 打了个平手(1524 vs 1514)。要知道 GPT-5.5 是闭源模型,价格比 GLM-5.2 贵得多。
但也要注意,这只是某一个 benchmark 的结果。在其他维度上,比如推理效率、一致性、指令遵循等方面,GPT-5.5 和 Claude Opus 4.8 可能还是有优势。
一个 HN 评论说得挺到位的:"GLM-5.2 基本上就是 Opus 4.8 的平价版——思考方式很像,token 消耗也差不多,但价格便宜了不知道多少倍。"
如果这个判断是准确的,那对很多预算有限但又需要强模型的团队来说,GLM-5.2 确实是个很有吸引力的选择。
成本算一笔账
既然说到价格,咱们来算一笔实际的账。假设你每天用大模型处理 100 个任务,每个任务平均消耗 40k output tokens:
GLM-5.2(Max 档):
- 输出成本:100 × 40k × $4.4/M = $17.6/天
- 月成本:约 $528
GLM-5.2(High 档,token 减半):
- 输出成本:100 × 20k × $4.4/M = $8.8/天
- 月成本:约 $264
DeepSeek V4 Pro (max):
- 输出成本:100 × 37k × $X/M(具体价格看平台)
- 月成本:大概率低于 $100
GPT-5.5 (xhigh):
- 输出成本:100 × 16k × $Y/M(OpenAI 的定价比较复杂)
- 月成本:可能在 $300-500 之间
所以如果你的使用量不大(每天几十个任务),GLM-5.2 的成本是可以接受的。但如果使用量很大(每天几百上千个任务),那 DeepSeek V4 的成本优势就很明显了。
还有一种玩法是混合使用:简单任务用 DeepSeek V4 或者 MiniMax-M3,复杂推理任务才切到 GLM-5.2。这样既能保证关键任务的质量,又能把整体成本控制住。很多团队其实已经在这么做了。
另外要注意的是,GLM-5.2 的缓存命中价格只有 $0.26/M tokens,比正常输入价格便宜了 80% 多。如果你的应用场景有很多重复的 prompt(比如 RAG 系统),善用缓存可以大幅降低成本。
MIT 许可证的意义
这个值得单独拿出来说。GLM-5.2 用的是 MIT 许可证,这意味着:
- 可以商用,不需要额外授权
- 可以修改和分发
- 没有"不得用于训练竞品模型"之类的限制
对比之下,有些开源模型虽然号称开源,但许可证里有不少限制条款。GLM-5.2 的 MIT 许可证让它成为了真正意义上的"open weights"。
对于企业用户来说,这个很重要。不用担心许可证问题导致的法律风险,可以放心地在生产环境里使用。
对开发者意味着什么
从开发者的角度,GLM-5.2 的发布意味着几件事:
开源模型的能力天花板又提高了。之前大家觉得开源模型跟闭源差一代,现在这个差距在某些维度上已经基本抹平了。
API 选择更多了。如果你之前只用 DeepSeek 或者只用 OpenAI 的 API,现在可以考虑把一部分流量切到 GLM-5.2 试试。特别是在需要强推理能力的场景下。
本地部署暂时别想了。744B 参数的模型,即使只激活 40B,也需要巨量显存。有 HN 评论说需要 8 张 96GB 的 Blackwell 显卡,硬件成本大概 15 万美元。这不是普通开发者能玩得起的。
不过也有乐观的看法:随着统一内存架构的发展,未来几年可能会出现 512GB 甚至 1TB 内存的消费级设备。到那时候,跑 GLM-5.2 这个级别的模型可能就不是梦了。当然,这至少是 2030 年以后的事了。
竞争格局在变化。智谱之前在开源模型领域不算最亮眼的,但这次 GLM-5.2 的表现说明中国的大模型团队确实在快速进步。DeepSeek、智谱、MiniMax 这些公司之间的竞争,最终受益的是开发者。
常见问题
Q:GLM-5.2 能本地跑吗?
理论上可以,但硬件要求很高。744B 参数即使量化到 4-bit 也需要至少 372GB 显存。目前消费级显卡最高也就 24-48GB,差距太大。用第三方 API 是目前最现实的选择。
Q:跟 Claude Code 配合好用吗?
GLM-5.2 的 TerminalBench 分数从 62% 涨到 78%,说明终端/代码场景的能力有明显提升。但 Claude Code 本身是 Anthropic 的产品,默认用的是 Claude 系列模型。如果你想用 GLM-5.2 做编程,可以通过 API 接入其他支持自定义模型的工具。
Q:中文能力比 DeepSeek V4 强吗?
很难说。两者都是中国团队做的,中文水平在开源模型里都算顶尖的。体感上差别不大,建议你拿自己的实际任务去测试。有些场景 GLM-5.2 更好,有些场景 DeepSeek V4 更好。
Q:Max 和 High 档位怎么选?
日常使用选 High 就够了,token 消耗能省一半多,质量差距不大。Max 档位适合特别复杂的推理任务,比如数学证明、复杂代码架构设计等。
Q:第三方平台和智谱官方 API 有什么区别?
功能上基本一样,都是同一个模型。区别在于价格、限速和延迟。有些第三方平台可能更便宜,但延迟可能更高。建议多试几个平台,选一个最适合自己使用场景的。
HN 评论区的有趣观点
每次大模型排行榜更新,Hacker News 的评论区都比文章本身有意思。这次 GLM-5.2 的帖子也不例外,377 条评论里有不少值得分享的观点。
"智谱在蒸馏 Opus"的猜测
这是评论区讨论最热的话题之一。有用户指出,GLM-5.2 的思考模式跟 Claude Opus 4.8 非常像 -- token 消耗量接近(43k vs 41k),推理链条的结构也很相似。当然,也有人反驳说,如果两个模型在相似的数据上训练、用相似的后训练方法,产出相似的思考模式是正常的。不管真相如何,有一点是确定的:GLM-5.2 的推理行为确实跟 Opus 系列有很高的相似度。
效率才是下一个战场
好几位评论者都提到了一个观点:现在开源模型的"智能"已经够用了,下一步应该重点优化推理效率。GPT-5.5 只用 16k tokens 就能完成的任务,GLM-5.2 要花 43k tokens,这个差距在实际使用中意味着更长的等待时间和更高的成本。如果智谱能把 token 效率优化到 GPT-5.5 的水平,同时保持当前的能力,那才是真正的大杀器。
本地部署的现实困境
有人问能不能在消费级硬件上跑 GLM-5.2。答案是:目前不行。744B 参数需要 8 张 96GB 的 Blackwell 显卡,硬件成本大概 15 万美元。不过也有人提到,如果用一些特殊的量化和分片技术,可能用更便宜的硬件也能跑起来,但性能会大打折扣。对于普通开发者来说,用 API 是目前唯一现实的选择。
中国大模型的崛起
评论区有不少人感叹中国大模型团队的进步速度。DeepSeek V4 之前已经让人印象深刻了,现在 GLM-5.2 又往前走了一大步。有评论说:"开源大模型的前沿现在基本被中国公司占据了。"虽然这个说法有点绝对,但确实反映了当前的竞争格局。不管怎样,这种竞争对所有人都是好事 -- 有竞争才有进步,有进步我们才能用上更好更便宜的模型。
跟其他开源模型的横向对比
除了 DeepSeek V4,还有几个开源模型值得拿来比较:
MiniMax-M3(44 分)
MiniMax 是一家中国 AI 公司,M3 是他们的旗舰模型。在智能指数上跟 DeepSeek V4 Pro 打平,但价格更便宜(每任务约 $0.18)。token 消耗也更少(24k),效率比 GLM-5.2 好不少。如果你在意性价比,MiniMax-M3 其实是个被低估的选择。
Kimi K2.6(43 分)
月之暗面(Moonshot AI)的模型,在中文场景下表现很好。智能指数 43 分,比 GLM-5.2 低 8 分,但 token 消耗(35k)和成本($0.31/任务)都更友好。Kimi 系列在国内的知名度很高,很多用户已经习惯了它的交互风格。
Llama 系列
Meta 的 Llama 系列在开源社区影响力很大,但在 Artificial Analysis 的最新排行上已经不在前列了。Llama 的优势在于社区生态和工具链成熟度,而不是纯粹的智能指数。如果你需要的是一个稳定、好用、社区支持好的模型,Llama 依然是不错的选择。
说白了,现在开源大模型的选择已经很多了。不同模型在能力、成本、效率、生态等方面各有优劣,没有一个"最好"的答案。关键是根据自己的具体需求来选。
一个实际的选型建议
如果你正在纠结选哪个开源模型,这里给一个简单的决策框架:
追求最强能力:GLM-5.2。智能指数最高,Agent 能力接近 GPT-5.5。代价是 token 消耗大、成本较高。
追求性价比:DeepSeek V4 Pro 或 MiniMax-M3。能力够用,成本低得多,token 效率也更好。
追求中文体验:GLM-5.2、DeepSeek V4、Kimi K2.6 都不错。建议拿自己的实际任务测试,看哪个更符合你的需求。
追求社区生态:Llama 系列。虽然智能指数不是最高,但工具链、微调框架、社区支持都是最成熟的。
企业商用:GLM-5.2 的 MIT 许可证是最友好的。不用担心法律风险,可以放心在生产环境使用。
当然,最好的方式是把几个模型都试试。大部分第三方平台都有免费额度或者很便宜的试用价格,花几美元就能跑一轮对比测试,比看任何评测文章都靠谱。
下一步会怎样
GLM-5.2 的发布让开源大模型的竞争又激烈了一轮。几个值得关注的方向:
效率优化。现在 GLM-5.2 最大的短板就是 token 消耗太大。如果智谱能在后续版本中把推理效率提上来(比如用更聪明的 thinking 策略),那竞争力会更强。
小型化。744B 参数太大了,大部分开发者用不起本地部署。如果能蒸馏出一个 70B 甚至更小的版本,同时保持大部分能力,那实用价值会大得多。
多模态。智谱已经有 GLM-4.6V 做视觉理解了,如果能把 GLM-5.2 的能力扩展到多模态领域,想象空间会更大。
DeepSeek 的回应。DeepSeek 肯定不会坐视不管。V4 之后的下一个版本会是什么样?这场开源大模型的竞赛,精彩的部分可能才刚刚开始。
写在最后
说实话,半年前如果有人跟我说智谱的模型能跟 GPT-5.5 打平手,我大概率不会信。但数据摆在那里,GLM-5.2 确实在某些维度上做到了开源模型的最好水平。
当然,排行榜分数只是一个参考。实际好不好用,还得看具体场景。我后面打算把 GLM-5.2 接到我的 AI 编程工作流里跑一段时间,看看实际体验到底怎么样。到时候再写一篇详细的使用报告。
有已经在用 GLM-5.2 的朋友吗?评论区聊聊你的体验。
对了,如果你对 GLM-5.2 的技术细节感兴趣,Artificial Analysis 的网站上有详细的评测数据,包括每个 benchmark 的单项分数、token 消耗分布、延迟对比等。链接放在文末的参考资料里了,推荐去看看。数据很全,比我说的详细多了。
- 本文写于 2026 年 6 月 18 日,数据来源:Artificial Analysis、Hacker News、智谱开放平台。*