GLM-5 深度研究:智谱 744B 开源旗舰,从"能写代码"到"能造系统"

> 来源: https://huggingface.co/zai-org/GLM-5

> 论文: https://arxiv.org/abs/2602.15763

> 技术博客: https://z.ai/blog/glm-5

> GitHub: https://github.com/zai-org/GLM-5

> 阮一峰评测: https://www.ruanyifeng.com/blog/2026/02/glm-5.html

> 发布日期: 2026-02-11

> 公司: 智谱 AI (Z.ai) + 清华大学

> 研究时间: 2026-03-16

📌 一句话总结

GLM-5 是智谱 AI 的开源旗舰模型,744B 总参数 / 40B 激活,定位从 "Vibe Coding"(氛围编程)升级到 "Agentic Engineering"(智能体工程)。它是首个在 Artificial Analysis Intelligence Index v4.0 达到 50 分的开源模型,LMArena Text + Code 双料开源第一,SWE-Bench Verified 77.8% 逼近 Claude Opus 4.5(80.9%)。发布前以 "Pony Alpha" 匿名身份在 OpenRouter 登顶引发猜测。

🏗️ 架构详解

参数GLM-5GLM-4.7(前代)
**总参数****744B**355B
**激活参数****40B**32B
**专家数**256未公开
**层数**80未公开
**预训练数据****28.5T tokens**23T
**上下文****200K**128K
**注意力机制**MLA + DSAMLA
**激活函数**SwiGLUSwiGLU
**量化**FP8 版本可用-
**开源**

四大技术创新

1. DeepSeek Sparse Attention(DSA)

GLM-5 直接采用了 DeepSeek 的稀疏注意力机制——这本身就很有意思:中国头部 AI 公司互相借鉴对方的开源技术

DSA 的核心:

关键:DSA 是通过 Continued Pre-Training 引入的,不需要从零训练。

2. MLA + Muon Split

标准 MLA 在 Muon 优化器下性能不如 GQA-8。智谱的解决方案:把 MLA 的投影矩阵按 head 切分后独立做矩阵正交化(Muon Split),使不同 head 的权重可以独立更新。

另外,将 head 维度从 192 增加到 256,head 数减少 1/3——训练计算量不变,但解码计算量下降。

3. MTP 参数共享

Multi-Token Prediction 用于推测解码加速。DeepSeek V3 用 1 个 MTP 层(训练-推理不一致导致接受率低);GLM-5 用 3 个 MTP 层共享参数——内存成本不变,但接受长度从 DeepSeek V3.2 的 2.55 提升到 2.76

4. 全栈国产芯片适配

从第一天起适配七大国产芯片平台:

这在地缘政治意义上非常重要——GLM-5 证明了不依赖 NVIDIA 也能训练和部署前沿模型。

🧠 训练流水线


预训练 (27T tokens, 代码+推理优先)
    ↓
中期训练 (1.5T tokens, 上下文 4K→200K, 长程 Agent 数据)
    ↓
SFT (监督微调)
    ↓
3 阶段 RL:
    ① Reasoning RL → 推理能力
    ② Agentic RL → Agent 自主决策
    ③ General RL → 通用能力
    ↓
On-Policy Cross-Stage Distillation (防止灾难性遗忘)

slime:异步 RL 基础设施

智谱开源了 slime(https://github.com/THUDM/slime),一个异步 RL 训练框架:

📊 Benchmark 全面对比

Agent + 工程任务

BenchmarkGLM-5GLM-4.7DeepSeek V3.2Kimi K2.5Claude Opus 4.5Gemini 3 ProGPT-5.2
**HLE (w/tools)****50.4**42.840.851.843.445.845.5
**SWE-Bench Verified**77.873.873.176.8**80.9**76.280.0
**SWE-Bench Multilingual**73.366.770.273.0**77.5**65.072.0
**Terminal-Bench 2.0****56.2**41.039.350.859.354.254.0
**BrowseComp (w/ctx)****75.9**67.567.674.967.859.265.8
**MCP-Atlas**67.852.062.263.865.266.6**68.0**
**Vending Bench 2**$4,432$2,377$1,034$1,198$4,967**$5,478**$3,591

推理任务

BenchmarkGLM-5Kimi K2.5Claude Opus 4.5GPT-5.2
AIME 2026 I92.792.593.3-
GPQA-Diamond86.087.687.0**92.4**
HMMT Nov. 2025**96.9**91.191.797.1

综合排名

评估体系GLM-5 排名
**Artificial Analysis Intelligence Index v4.0**50 分,**开源模型历史首次**
**LMArena Text Arena**开源 #1
**LMArena Code Arena**开源 #1
**SWE-Bench Verified(开源)**#1(77.8%)

🔍 阮一峰实测:vs Claude Opus 4.6 vs GPT-5.3-Codex

阮一峰(ruanyifeng)在 GLM-5 正式发布前参与了内测,做了 4 项对比测试:

测试GLM-5Opus 4.6GPT-5.3
**网页设计重构**✅ 美观专业+动画✅ 美观专业⚠️ 有瑕疵
**3D 太阳系沙盒**🟡 缺引力网格线✅ 最佳⚠️ 网格线凌乱
**愤怒的小鸟网页游戏**🟡 可玩但弹跳不足✅ 最佳❌ 不能玩
**Laravel→Next.js 转换**✅ 最快(5分钟)无报错⚠️ 20分钟✅ 5分钟

阮一峰结论:"GLM-5 的编程表现可圈可点...某些方面甚至还能赢出...足以跟世界第一梯队的大模型公司正面 PK"

💡 "Pony Alpha" 匿名发布事件

GLM-5 正式发布前,一个名为 "Pony Alpha" 的神秘模型出现在 OpenRouter,迅速登顶热度榜首。社区发现:

智谱最终确认 Pony Alpha 就是 GLM-5。这种"匿名先行、实力说话"的发布策略相当聪明——避免了品牌偏见,让社区纯粹基于能力评价。

🤔 深度分析

GLM-5 vs 同代模型定位

模型核心定位差异化卖点
**GLM-5**Agentic Engineering(系统工程)长程任务+国产芯片
**Kimi K2.5**Agent Swarm(并行协作)100 子 Agent 并行
**DeepSeek V3.2**性价比之王最便宜+推理最强
**Claude Opus 4.5**编码精确度SWE-Bench 最高
**GPT-5.2**全面性推理 benchmark 最高

真正的优势

1. 长程 Agent 任务:Vending Bench 2 $4,432(开源 #1),能跑数小时的任务不乱

2. BrowseComp 75.9%:搜索+信息综合能力超过所有闭源模型(比 GPT-5.2 的 65.8% 高 10 个百分点)

3. 开源 + 国产芯片:不依赖 NVIDIA 也能部署,地缘政治意义重大

4. DSA 降本:长上下文推理成本降低 1.5-2x

不足

中国开源 AI 的"三国"格局


DeepSeek → 价格战(最便宜的前沿模型)
Kimi     → 并行战(Agent Swarm 独家)
GLM      → 工程战(系统级+国产芯片)

三家互相借鉴:GLM-5 用了 DeepSeek 的 DSA,Kimi K2.5 用了 DeepSeek 的 MoE 思路,DeepSeek 在下一版可能反过来借鉴 GLM 的异步 RL 或 Kimi 的 Swarm。中国开源 AI 的竞合生态正在形成。

🦞 GLM-5-Turbo:首个专为 OpenClaw 深度优化的"龙虾模型"(2026-03-16 新发布)

就在 GLM-5 发布一个月后,智谱于 2026 年 3 月 16 日发布了 GLM-5-Turbo——号称是首个从训练阶段就针对 OpenClaw 场景深度优化的基础模型

基本规格

参数GLM-5-Turbo
**定位**OpenClaw / Agent 场景专用
**上下文**200K
**最大输出****128K tokens**
**定价**$0.96/M input,$3.20/M output
**思考模式**
**流式输出**
**函数调用**
**上下文缓存**
**MCP**
**状态**⚠️ 实验阶段,**闭源**(成果将集成到下一个开源模型)

四大强化方向

1. 工具调用(Tool Calling):"精准调用,不失败"——增强外部工具和各种 Skills 的调用稳定性,确保多步任务从对话到执行的平滑过渡

2. 指令跟随(Instruction Following):增强对复杂、多层、长链指令的理解和分解能力,支持多 Agent 协作分工

3. 定时+持久任务(Scheduled & Persistent Tasks):显著优化定时触发、持续执行、长时间运行任务的理解——对 OpenClaw 的 Cron 和 Heartbeat 功能至关重要

4. 高吞吐长链(High-Throughput Long Chains):针对 Lobster 任务(高数据吞吐+长逻辑链),提升执行效率和响应稳定性

ZClawBench:OpenClaw 专用 Benchmark

智谱同时发布了 ZClawBench——专门为 OpenClaw Agent 场景设计的端到端评测基准。

基于对真实 OpenClaw 用例的分析,覆盖:环境搭建、软件开发、信息检索、数据分析、内容创建等任务类型。

关键发现:

与 GLM-5 的关系

维度GLM-5GLM-5-Turbo
定位通用旗舰OpenClaw 场景专用
架构744B/40B MoE未公开(可能相同基座+专项 SFT/RL)
开源❌ 闭源(实验阶段)
工具调用**更强**(专项优化)
长程任务**更强**(时间维度理解)
定价GLM-5 API 定价$0.96/$3.20 per M

"龙虾套餐"

智谱同时推出了基于 GLM-5-Turbo 的"龙虾套餐",包含个人版和团队版——这是 AI 公司首次为单一 Agent 框架(OpenClaw)推出专属商业套餐。

> 这标志着一个趋势:AI 模型提供商开始围绕特定 Agent 框架做垂直优化,而不仅仅是做通用大模型。OpenClaw 的生态影响力正在从"热门开源项目"升级为"模型训练的目标场景"。

💡 与我们的关联

1. GLM-5-Turbo 可能是我们的最佳选择

我们是 OpenClaw 用户,GLM-5-Turbo 就是为我们设计的。工具调用稳定性、Cron 任务理解、长链执行——全是我们的核心场景。建议尽快试用。

2. 我们已经在用 GLM

OpenClaw 配置中有 GLM 频道(绑定 1472973204040716450)。切换到 GLM-5-Turbo 只需要改 model 参数。

3. 深度研究场景

场景最佳选择
需要最精确的编码Claude Opus
需要最便宜DeepSeek V3.2
需要并行研究Kimi K2.5 Agent Swarm
需要长程任务+搜索综合GLM-5
**OpenClaw Agent 场景****GLM-5-Turbo**

4. 国产芯片部署路径

如果未来 NVIDIA 出口管制加剧,GLM-5 是唯一一个从第一天就适配七大国产芯片的前沿模型。这对国内用户有战略价值。

5. slime RL 框架

智谱开源的异步 RL 框架 slime 对任何想做 Agent RL 训练的团队都有参考价值。

📊 评分

维度评分(/10)
技术创新9.0 — DSA + 异步 RL + 国产芯片适配
模型能力8.5 — 开源 #1,接近闭源前沿
开源程度9.5 — 权重+代码+论文+RL框架全开
实用价值8.5 — API 可用,多框架部署支持
与我们的关联9.0 — GLM-5-Turbo 就是为 OpenClaw 用户设计的
**综合****9.0**

报告由深度研究助手自动生成 | 2026-03-16

来源: https://huggingface.co/zai-org/GLM-5