Gemma 4 实测:26B MoE vs 31B Dense on RTX 4090
TL;DR
Google 于 2026 年 4 月 2 日发布了 Gemma 4 开源模型系列。我们在 RTX 4090 (24GB VRAM) 上用 Ollama 实测了 26B MoE 和 31B Dense 两个版本。结论:26B MoE 是 4090 用户的最佳选择——170 tok/s 的生成速度碾压一切同级别模型,而 31B Dense 虽然诗词质量略胜,但 8.5 tok/s 的速度基本不可用。
Gemma 4 模型架构
Gemma 4 是 Google DeepMind 发布的最新开源模型系列,共四个尺寸:
| 模型 | 参数量 | 架构 | 定位 |
|---|---|---|---|
| Gemma 4 E2B | 2B | Dense | 端侧/嵌入式 |
| Gemma 4 E4B | 4B | Dense | 端侧/移动端 |
| **Gemma 4 26B** | **26B** | **MoE** | **桌面级推理** |
| **Gemma 4 31B** | **31B** | **Dense** | **高质量生成** |
本次测试聚焦后两个——26B MoE 和 31B Dense,它们面向的都是消费级 GPU 用户。
MoE vs Dense:架构差异
26B MoE (Mixture of Experts):总参数 26B,但每次推理只激活约 3.8B 参数。模型内部有多个"专家"子网络,路由机制动态选择最相关的专家处理输入。好处是——算力需求远低于参数总量暗示的水平。
31B Dense:所有 31B 参数在每次推理时全部参与计算。理论上能力上限更高,但计算量也成正比。
测试环境
| 项目 | 配置 |
|---|---|
| GPU | NVIDIA RTX 4090 (24GB VRAM) |
| CPU / RAM | 62GB 系统内存 |
| 系统 | Ubuntu 20.04 |
| 推理框架 | Ollama 0.20.0 |
| 量化 | Q4 (4-bit) |
| 26B MoE 模型大小 | 9.6GB |
| 31B Dense 模型大小 | 19GB |
两个模型都采用 Q4 量化。26B MoE 量化后仅 9.6GB,轻松塞进 24GB 显存并有大量余量;31B Dense 量化后 19GB,刚好能塞进去但余量紧张。
测试方法
通过 Ollama HTTP API 发送请求,设置 stream: false 以获取完整响应和精确的 token 统计。三个测试任务覆盖不同场景:
- 中文创作:写一首关于西湖的五言绝句
- 英文知识问答:用 3 句话解释 TCP vs UDP
- 代码生成:实现带 memoization 的 Fibonacci 函数
每个任务取单次结果,记录总 token 数、耗时和吞吐量 (tok/s)。
测试结果
Gemma 4 26B MoE
| 测试任务 | 速度 | 耗时 | 生成 tokens |
|---|---|---|---|
| 中文:西湖五言绝句 | **170.9 tok/s** | 8.9s | 870 |
| 英文:TCP vs UDP | **169.0 tok/s** | 1.8s | 249 |
| 代码:Fibonacci | **161.3 tok/s** | 11.2s | 1582 |
平均速度:~167 tok/s
Gemma 4 31B Dense
| 测试任务 | 速度 | 耗时 | 生成 tokens |
|---|---|---|---|
| 中文:西湖五言绝句 | **8.5 tok/s** | 141.7s | 1193 |
| 英文:TCP vs UDP | **8.7 tok/s** | 38.2s | 325 |
| 代码:Fibonacci | **8.5 tok/s** | 144.0s | 1211 |
平均速度:~8.6 tok/s
速度对比
26B MoE: ████████████████████████████████████████ 167 tok/s
31B Dense: ██ 8.6 tok/s
Qwen3:14b: ███ 11.4 tok/s
26B MoE 比 31B Dense 快了 约 20 倍,比同机器上的 Qwen3:14b 快 约 15 倍。
为什么差距这么大?26B MoE 每次推理只激活 3.8B 参数(总参数的 15%),而 31B Dense 需要全量计算 31B 参数。在 4090 上,9.6GB 的 MoE 模型完全在显存内运行,充分利用了 GPU 的算力带宽。19GB 的 Dense 模型虽然也能塞进显存,但计算量是 MoE 的 8 倍以上。
生成质量对比
中文诗词
26B MoE 输出:
题西湖
烟波笼远山,春色拂柳烟。
苏堤垂画阁,醉卧湖心间。
31B Dense 输出:
西湖
烟柳绕湖光,荷香沁晚凉。
孤山凝古韵,远岫共清苍。
两首诗都合格,意境到位。但细看有差异:
- 26B MoE:用词流畅,"苏堤""湖心"点名西湖元素,但"春色拂柳烟"与首句的"烟"字重复,格律上不够严谨。
- 31B Dense:意境更凝练,"荷香沁晚凉"有通感之美,"孤山凝古韵"对仗工整。整体文学质量更高。
英文和代码
英文解释和代码生成方面,两个模型的输出质量差异不大,都能正确完成任务。31B Dense 的解释略更详细(325 vs 249 tokens),代码注释也更丰富。
质量小结
31B Dense 在创意写作上确实更好——这符合预期,毕竟它动用了所有 31B 参数。但差距并不是代差,更像是"好"和"不错"的区别。考虑到 20 倍的速度差距,这点质量优势很难证明等待是值得的。
与其他模型的横向对比
| 模型 | 速度 (tok/s) | 模型大小 | 备注 |
|---|---|---|---|
| **Gemma 4 26B MoE** | **~167** | **9.6GB** | **本次测试冠军** |
| Qwen3:14b | 11.4 | ~8GB | 同机器测试 |
| Gemma 4 31B Dense | 8.6 | 19GB | 质量略优但太慢 |
26B MoE 的 167 tok/s 在消费级 GPU 上几乎是即时响应级别的体验——打字都没它快。
结论与建议
选 26B MoE 的理由
1. 速度碾压:167 tok/s,比同级别模型快一个数量级
2. 显存友好:9.6GB 占用,24GB 显存富余大量空间(可以同时跑其他任务)
3. 质量够用:中英文和代码任务都能正确完成,日常使用完全没问题
4. MoE 的胜利:激活参数仅 3.8B 就达到 26B 级别的质量,性价比极高
什么时候考虑 31B Dense
- 对中文创意写作有高要求(诗词、文学翻译)
- 不在意响应时间(批量离线任务)
- 愿意为微小的质量提升付出 20 倍的等待
4090 用户的最佳实践
对于 RTX 4090 用户,Gemma 4 26B MoE 是目前最值得跑的本地模型之一。9.6GB 的小体积、170 tok/s 的高速度、26B 参数的质量保障——三者兼得,这在以前是不可想象的。MoE 架构在消费级硬件上的优势被这次测试充分验证了。
如果你还在跑 Qwen3:14b 或类似大小的 Dense 模型,强烈建议试试 Gemma 4 26B MoE。同样的硬件,15 倍的速度提升,质量也不打折。
# 一行命令开始体验
ollama run gemma4:26b