GLM-5.2 登顶开源模型排行榜：智谱这次真的能打了

昨天刷 Hacker News 的时候看到一条帖子，700 多分，标题说的是智谱的 GLM-5.2 拿下了 Artificial Analysis 智能指数的开源模型第一名。我当时第一反应是：又来？之前 DeepSeek V4 刚出来的时候也这么吹的。

但仔细看了看数据，这次好像不太一样。GLM-5.2 在智能指数上拿了 51 分，比 DeepSeek V4 Pro 的 44 分高了整整 7 分，比 MiniMax-M3 也高了 7 分。而且在 GDPval-AA v2 这个偏向实际 Agent 能力的测试上，直接跟 GPT-5.5 打了个平手。

说实话，智谱之前给我的印象一直是"还行但不够猛"。GLM-4 的时候跟一线模型差距明显，GLM-5 好了一些但也没到惊艳的程度。这次 5.2 版本突然跳这么高，我挺好奇到底发生了什么。

GLM-5.2 是个什么东西

先说说基本参数。GLM-5.2 是智谱（现在品牌叫 Z.ai）发布的开源大模型，总参数 744B，但用了 MoE（混合专家）架构，实际每次推理只激活 40B 参数。这意味着它虽然"体积"很大，但推理成本其实没有看起来那么夸张。

几个关键数据：

上下文窗口：1M tokens，从 GLM-5.1 的 200K 直接扩了 5 倍
许可证：MIT，完全开源，商用也没问题
API 定价：输入 $1.4/M tokens，输出 $4.4/M tokens，缓存命中 $0.26/M tokens
第三方可用：DeepInfra、Novita、Nebius、Siliconflow 等平台都已上线

跟 GLM-5.1 比，5.2 的参数量完全一样（都是 744B/40B active），但智能指数高了 11 分。这种"同架构提分"的操作，大概率是在训练数据和后训练（post-training）上下了功夫。HN 上有人猜测智谱可能在训练过程中参考了 Opus 系列模型的输出，毕竟两者在思考模式上确实很像。当然这只是猜测，没有实锤。

排行榜上到底表现怎么样

Artificial Analysis 的智能指数 v4.1 是目前业界比较受认可的综合评测之一，不是那种刷题式的 benchmark，更偏向实际能力。GLM-5.2 在这个榜单上的表现：

智能指数总分：51（开源第一）
第二名：MiniMax-M3，44 分
第三名：DeepSeek V4 Pro (max)，44 分
第四名：Kimi K2.6，43 分

几个单项的提升幅度挺大的：

科学推理（CritPt）：比 5.1 提升 16 个百分点，达到 21%
HLE（高难度推理）：提升 12 个百分点，达到 40%
TerminalBench v2.1：提升 16 个百分点，达到 78%
GPQA Diamond：提升 3 个百分点，达到 89%
AA-LCR：提升 9 个百分点，达到 71%
tau3 banking：提升 15 个百分点，达到 27%
SciCode：提升 7 个百分点，达到 50%

最有看头的是 GDPval-AA v2 这个测试。这个测试专门评估模型在实际 Agent 场景下的表现，比如工具调用、多轮对话、复杂任务执行等。GLM-5.2 拿了 1524 分，跟 GPT-5.5 (xhigh reasoning) 的 1514 分基本持平。也就是说，在 Agent 能力上，这个开源模型已经能跟 OpenAI 的旗舰打个有来有回了。

但是，token 消耗是个大问题

好消息说完了，说说让人头疼的地方。

GLM-5.2 每个任务平均消耗 43k output tokens，其中 37k 是推理 token。作为对比：

GPT-5.5 xhigh：16k tokens
GPT-5.5 high：10k tokens
Fable 5：33k tokens
Opus 4.8：41k tokens
MiniMax-M3：24k tokens
Kimi K2.6：35k tokens
DeepSeek V4 Pro (max)：37k tokens

也就是说，GLM-5.2 在"想清楚再回答"这件事上花的 token 是 GPT-5.5 的将近 3 倍。

我在 HN 评论区看到一个哥们说，他让 GLM-5.2 写一个 Nim 语言的数学表达式求值器（大概 400-600 行代码），模型光思考就花了 15 分钟，消耗了 45k tokens 才开始写第一行代码。

这个体验确实有点离谱。虽然 GLM-5.2 的 API 价格比 GPT-5.5 和 Opus 4.8 便宜很多，但如果你在意响应速度的话，这个 token 消耗量是个实打实的短板。

不过有个好消息是，从 Max 降到 High 档位，token 消耗能砍掉一半到三分之二，而且大部分任务的质量下降不明显。HN 上有用户实测说，GLM-5.2 High 和 Max 的质量差距很小，但 token 用量直接减半。所以日常使用的话，High 档位可能是性价比最高的选择。

跟 DeepSeek V4 比怎么样

这个大概是大家最关心的问题。毕竟在 GLM-5.2 之前，DeepSeek V4 是开源模型里的标杆。

智能指数：GLM-5.2 拿了 51 分，DeepSeek V4 Pro (max) 拿了 44 分。差距有 7 分，在排行榜上算是明显的优势了。

GDPval-AA v2（Agent 能力）：GLM-5.2 拿了 1524 分，DeepSeek V4 Pro (max) 拿了 1328 分。差距接近 200 分，这在 Agent 场景下是很大的差距。

价格：DeepSeek V4 的 API 价格一直以便宜著称。从 Artificial Analysis 的数据来看，DeepSeek V4 Pro (max) 每个任务大约 $0.05，而 GLM-5.2 大约 $0.46。差了将近 10 倍。

token 效率：DeepSeek V4 Pro (max) 用 37k tokens，GLM-5.2 用 43k。差距不算大，但 GLM-5.2 确实更"啰嗦"一些。

中文能力：两者都是中国团队做的模型，中文水平都很不错。体感上差别不大，某些场景 GLM-5.2 更好，某些场景 DeepSeek V4 更好。这个很难量化，得看具体任务。

所以结论是：GLM-5.2 在能力上确实超过了 DeepSeek V4，但在成本和效率上，DeepSeek V4 依然有明显优势。选哪个取决于你的具体需求——如果追求最强能力，选 GLM-5.2；如果追求性价比，DeepSeek V4 可能更合适。

在 Pareto 前沿上的位置

Artificial Analysis 有一个很直观的图表，展示的是"智能 vs 每任务成本"的 Pareto 前沿。简单来说，就是在这个曲线上面的模型，要么更聪明，要么更便宜，或者两者兼得。

GLM-5.2 正好在这条 Pareto 曲线上，意思是：在它这个智能水平的模型里，它的成本是最低的。

具体数字：

GLM-5.2：每任务约 $0.46
Kimi K2.6：每任务约 $0.31（但智能指数低了 8 分）
MiniMax-M3：每任务约 $0.18（但智能指数低了 7 分）
DeepSeek V4 Pro (max)：每任务约 $0.05（但智能指数低了 7 分）

如果你需要的是"开源模型里最强的"，GLM-5.2 确实是当前最佳选择。但如果你的需求是"够用就行，越便宜越好"，那 DeepSeek V4 或 MiniMax-M3 可能更合适。

这里有个容易忽略的细节：GLM-5.2 的 Pareto 位置说明了一个重要趋势 -- 开源模型正在逼近"智能-成本"曲线的最优区域。以前你要么选一个便宜但笨的模型，要么选一个聪明但贵的闭源模型。现在 GLM-5.2 在中间找到了一个不错的平衡点。当然，这个平衡点对不同人来说意义不同。如果你一个月只花几十美元用 API，那成本差异可以忽略不计；但如果你是企业级用户，每月 API 支出上万美元，那 10 倍的成本差距就很要命了。

幻觉率也改善了

除了智能指数，GLM-5.2 在 AA-Omniscience Index（幻觉评测）上也有进步，从 GLM-5.1 的 2 分涨到了 4 分。具体来看：

准确率：24.2% → 25.1%
幻觉率：29.4% → 28.1%
尝试率：47%（持平）

说实话，25% 的准确率和 28% 的幻觉率放在整个大模型领域算不上顶尖，但考虑到这是开源模型，而且比上一代有明显进步，方向是对的。

幻觉率这个问题，目前所有大模型都没彻底解决。GLM-5.2 至少在往好的方向走，而且它的"尝试率"（47%）说明模型不会在不确定的时候硬答，这一点比某些"什么都敢说"的模型要好。

实际怎么用

如果你想像我一样试试 GLM-5.2，有几种方式：

方式一：智谱开放平台

直接去 bigmodel.cn 注册账号，创建 API Key 就能用。Python 调用示例：

python

from zhipuai import ZhipuAI
 
client = ZhipuAI(api_key="你的API Key")
response = client.chat.completions.create(
    model="GLM-5.2",  # 或者 GLM-5.2-high 省 token
    messages=[
        {"role": "user", "content": "解释一下量子计算的基本原理"}
    ],
    max_tokens=4096
)
print(response.choices[0].message.content)

方式二：OpenAI 兼容接口

智谱的 API 兼容 OpenAI 格式，所以你可以直接用 OpenAI 的 SDK：

python

from openai import OpenAI
 
client = OpenAI(
    api_key="你的API Key",
    base_url="https://open.bigmodel.cn/api/paas/v4/"
)
response = client.chat.completions.create(
    model="GLM-5.2",
    messages=[
        {"role": "user", "content": "用 Python 写一个快速排序"}
    ]
)
print(response.choices[0].message.content)

方式三：第三方平台

DeepInfra、Siliconflow、Novita 等平台都上线了 GLM-5.2。好处是可以跟其他模型放在一起比较，而且有些平台的价格可能比智谱官方更便宜。

如果你在用 Claude Code 或者其他支持自定义 API 的 AI 编程工具，可以把 GLM-5.2 作为一个备选模型接进去。有些场景下它的表现可能比你预期的好。

跟闭源模型比是什么水平

GLM-5.2 最让人惊讶的地方在于，它在 GDPval-AA v2 上跟 GPT-5.5 打了个平手（1524 vs 1514）。要知道 GPT-5.5 是闭源模型，价格比 GLM-5.2 贵得多。

但也要注意，这只是某一个 benchmark 的结果。在其他维度上，比如推理效率、一致性、指令遵循等方面，GPT-5.5 和 Claude Opus 4.8 可能还是有优势。

一个 HN 评论说得挺到位的："GLM-5.2 基本上就是 Opus 4.8 的平价版——思考方式很像，token 消耗也差不多，但价格便宜了不知道多少倍。"

如果这个判断是准确的，那对很多预算有限但又需要强模型的团队来说，GLM-5.2 确实是个很有吸引力的选择。

成本算一笔账

既然说到价格，咱们来算一笔实际的账。假设你每天用大模型处理 100 个任务，每个任务平均消耗 40k output tokens：

GLM-5.2（Max 档）：

输出成本：100 × 40k × $4.4/M = $17.6/天
月成本：约 $528

GLM-5.2（High 档，token 减半）：

输出成本：100 × 20k × $4.4/M = $8.8/天
月成本：约 $264

DeepSeek V4 Pro (max)：

输出成本：100 × 37k × $X/M（具体价格看平台）
月成本：大概率低于 $100

GPT-5.5 (xhigh)：

输出成本：100 × 16k × $Y/M（OpenAI 的定价比较复杂）
月成本：可能在 $300-500 之间

所以如果你的使用量不大（每天几十个任务），GLM-5.2 的成本是可以接受的。但如果使用量很大（每天几百上千个任务），那 DeepSeek V4 的成本优势就很明显了。

还有一种玩法是混合使用：简单任务用 DeepSeek V4 或者 MiniMax-M3，复杂推理任务才切到 GLM-5.2。这样既能保证关键任务的质量，又能把整体成本控制住。很多团队其实已经在这么做了。

另外要注意的是，GLM-5.2 的缓存命中价格只有 $0.26/M tokens，比正常输入价格便宜了 80% 多。如果你的应用场景有很多重复的 prompt（比如 RAG 系统），善用缓存可以大幅降低成本。

MIT 许可证的意义

这个值得单独拿出来说。GLM-5.2 用的是 MIT 许可证，这意味着：

可以商用，不需要额外授权
可以修改和分发
没有"不得用于训练竞品模型"之类的限制

对比之下，有些开源模型虽然号称开源，但许可证里有不少限制条款。GLM-5.2 的 MIT 许可证让它成为了真正意义上的"open weights"。

对于企业用户来说，这个很重要。不用担心许可证问题导致的法律风险，可以放心地在生产环境里使用。

对开发者意味着什么

从开发者的角度，GLM-5.2 的发布意味着几件事：

开源模型的能力天花板又提高了。之前大家觉得开源模型跟闭源差一代，现在这个差距在某些维度上已经基本抹平了。

API 选择更多了。如果你之前只用 DeepSeek 或者只用 OpenAI 的 API，现在可以考虑把一部分流量切到 GLM-5.2 试试。特别是在需要强推理能力的场景下。

本地部署暂时别想了。744B 参数的模型，即使只激活 40B，也需要巨量显存。有 HN 评论说需要 8 张 96GB 的 Blackwell 显卡，硬件成本大概 15 万美元。这不是普通开发者能玩得起的。

不过也有乐观的看法：随着统一内存架构的发展，未来几年可能会出现 512GB 甚至 1TB 内存的消费级设备。到那时候，跑 GLM-5.2 这个级别的模型可能就不是梦了。当然，这至少是 2030 年以后的事了。

竞争格局在变化。智谱之前在开源模型领域不算最亮眼的，但这次 GLM-5.2 的表现说明中国的大模型团队确实在快速进步。DeepSeek、智谱、MiniMax 这些公司之间的竞争，最终受益的是开发者。

常见问题

Q：GLM-5.2 能本地跑吗？

理论上可以，但硬件要求很高。744B 参数即使量化到 4-bit 也需要至少 372GB 显存。目前消费级显卡最高也就 24-48GB，差距太大。用第三方 API 是目前最现实的选择。

Q：跟 Claude Code 配合好用吗？

GLM-5.2 的 TerminalBench 分数从 62% 涨到 78%，说明终端/代码场景的能力有明显提升。但 Claude Code 本身是 Anthropic 的产品，默认用的是 Claude 系列模型。如果你想用 GLM-5.2 做编程，可以通过 API 接入其他支持自定义模型的工具。

Q：中文能力比 DeepSeek V4 强吗？

很难说。两者都是中国团队做的，中文水平在开源模型里都算顶尖的。体感上差别不大，建议你拿自己的实际任务去测试。有些场景 GLM-5.2 更好，有些场景 DeepSeek V4 更好。

Q：Max 和 High 档位怎么选？

日常使用选 High 就够了，token 消耗能省一半多，质量差距不大。Max 档位适合特别复杂的推理任务，比如数学证明、复杂代码架构设计等。

Q：第三方平台和智谱官方 API 有什么区别？

功能上基本一样，都是同一个模型。区别在于价格、限速和延迟。有些第三方平台可能更便宜，但延迟可能更高。建议多试几个平台，选一个最适合自己使用场景的。

HN 评论区的有趣观点

每次大模型排行榜更新，Hacker News 的评论区都比文章本身有意思。这次 GLM-5.2 的帖子也不例外，377 条评论里有不少值得分享的观点。

"智谱在蒸馏 Opus"的猜测

这是评论区讨论最热的话题之一。有用户指出，GLM-5.2 的思考模式跟 Claude Opus 4.8 非常像 -- token 消耗量接近（43k vs 41k），推理链条的结构也很相似。当然，也有人反驳说，如果两个模型在相似的数据上训练、用相似的后训练方法，产出相似的思考模式是正常的。不管真相如何，有一点是确定的：GLM-5.2 的推理行为确实跟 Opus 系列有很高的相似度。

效率才是下一个战场

好几位评论者都提到了一个观点：现在开源模型的"智能"已经够用了，下一步应该重点优化推理效率。GPT-5.5 只用 16k tokens 就能完成的任务，GLM-5.2 要花 43k tokens，这个差距在实际使用中意味着更长的等待时间和更高的成本。如果智谱能把 token 效率优化到 GPT-5.5 的水平，同时保持当前的能力，那才是真正的大杀器。

本地部署的现实困境

有人问能不能在消费级硬件上跑 GLM-5.2。答案是：目前不行。744B 参数需要 8 张 96GB 的 Blackwell 显卡，硬件成本大概 15 万美元。不过也有人提到，如果用一些特殊的量化和分片技术，可能用更便宜的硬件也能跑起来，但性能会大打折扣。对于普通开发者来说，用 API 是目前唯一现实的选择。

中国大模型的崛起

评论区有不少人感叹中国大模型团队的进步速度。DeepSeek V4 之前已经让人印象深刻了，现在 GLM-5.2 又往前走了一大步。有评论说："开源大模型的前沿现在基本被中国公司占据了。"虽然这个说法有点绝对，但确实反映了当前的竞争格局。不管怎样，这种竞争对所有人都是好事 -- 有竞争才有进步，有进步我们才能用上更好更便宜的模型。

跟其他开源模型的横向对比

除了 DeepSeek V4，还有几个开源模型值得拿来比较：

MiniMax-M3（44 分）

MiniMax 是一家中国 AI 公司，M3 是他们的旗舰模型。在智能指数上跟 DeepSeek V4 Pro 打平，但价格更便宜（每任务约 $0.18）。token 消耗也更少（24k），效率比 GLM-5.2 好不少。如果你在意性价比，MiniMax-M3 其实是个被低估的选择。

Kimi K2.6（43 分）

月之暗面（Moonshot AI）的模型，在中文场景下表现很好。智能指数 43 分，比 GLM-5.2 低 8 分，但 token 消耗（35k）和成本（$0.31/任务）都更友好。Kimi 系列在国内的知名度很高，很多用户已经习惯了它的交互风格。

Llama 系列

Meta 的 Llama 系列在开源社区影响力很大，但在 Artificial Analysis 的最新排行上已经不在前列了。Llama 的优势在于社区生态和工具链成熟度，而不是纯粹的智能指数。如果你需要的是一个稳定、好用、社区支持好的模型，Llama 依然是不错的选择。

说白了，现在开源大模型的选择已经很多了。不同模型在能力、成本、效率、生态等方面各有优劣，没有一个"最好"的答案。关键是根据自己的具体需求来选。

一个实际的选型建议

如果你正在纠结选哪个开源模型，这里给一个简单的决策框架：

追求最强能力：GLM-5.2。智能指数最高，Agent 能力接近 GPT-5.5。代价是 token 消耗大、成本较高。

追求性价比：DeepSeek V4 Pro 或 MiniMax-M3。能力够用，成本低得多，token 效率也更好。

追求中文体验：GLM-5.2、DeepSeek V4、Kimi K2.6 都不错。建议拿自己的实际任务测试，看哪个更符合你的需求。

追求社区生态：Llama 系列。虽然智能指数不是最高，但工具链、微调框架、社区支持都是最成熟的。

企业商用：GLM-5.2 的 MIT 许可证是最友好的。不用担心法律风险，可以放心在生产环境使用。

当然，最好的方式是把几个模型都试试。大部分第三方平台都有免费额度或者很便宜的试用价格，花几美元就能跑一轮对比测试，比看任何评测文章都靠谱。

下一步会怎样

GLM-5.2 的发布让开源大模型的竞争又激烈了一轮。几个值得关注的方向：

效率优化。现在 GLM-5.2 最大的短板就是 token 消耗太大。如果智谱能在后续版本中把推理效率提上来（比如用更聪明的 thinking 策略），那竞争力会更强。

小型化。744B 参数太大了，大部分开发者用不起本地部署。如果能蒸馏出一个 70B 甚至更小的版本，同时保持大部分能力，那实用价值会大得多。

多模态。智谱已经有 GLM-4.6V 做视觉理解了，如果能把 GLM-5.2 的能力扩展到多模态领域，想象空间会更大。

DeepSeek 的回应。DeepSeek 肯定不会坐视不管。V4 之后的下一个版本会是什么样？这场开源大模型的竞赛，精彩的部分可能才刚刚开始。

写在最后

说实话，半年前如果有人跟我说智谱的模型能跟 GPT-5.5 打平手，我大概率不会信。但数据摆在那里，GLM-5.2 确实在某些维度上做到了开源模型的最好水平。

当然，排行榜分数只是一个参考。实际好不好用，还得看具体场景。我后面打算把 GLM-5.2 接到我的 AI 编程工作流里跑一段时间，看看实际体验到底怎么样。到时候再写一篇详细的使用报告。

有已经在用 GLM-5.2 的朋友吗？评论区聊聊你的体验。

对了，如果你对 GLM-5.2 的技术细节感兴趣，Artificial Analysis 的网站上有详细的评测数据，包括每个 benchmark 的单项分数、token 消耗分布、延迟对比等。链接放在文末的参考资料里了，推荐去看看。数据很全，比我说的详细多了。

本文写于 2026 年 6 月 18 日，数据来源：Artificial Analysis、Hacker News、智谱开放平台。*

1	`from zhipuai import ZhipuAI`
2
3	`client = ZhipuAI(api_key="你的API Key")`
4	`response = client.chat.completions.create(`
5	`model="GLM-5.2", # 或者 GLM-5.2-high 省 token`
6	`messages=[`
7	`{"role": "user", "content": "解释一下量子计算的基本原理"}`
8	`],`
9	`max_tokens=4096`
10	`)`
11	`print(response.choices[0].message.content)`

1	`from openai import OpenAI`
2
3	`client = OpenAI(`
4	`api_key="你的API Key",`
5	`base_url="https://open.bigmodel.cn/api/paas/v4/"`
6	`)`
7	`response = client.chat.completions.create(`
8	`model="GLM-5.2",`
9	`messages=[`
10	`{"role": "user", "content": "用 Python 写一个快速排序"}`
11	`]`
12	`)`
13	`print(response.choices[0].message.content)`