Gemma 4 实测:26B MoE vs 31B Dense on RTX 4090

TL;DR

Google 于 2026 年 4 月 2 日发布了 Gemma 4 开源模型系列。我们在 RTX 4090 (24GB VRAM) 上用 Ollama 实测了 26B MoE 和 31B Dense 两个版本。结论:26B MoE 是 4090 用户的最佳选择——170 tok/s 的生成速度碾压一切同级别模型,而 31B Dense 虽然诗词质量略胜,但 8.5 tok/s 的速度基本不可用。

Gemma 4 模型架构

Gemma 4 是 Google DeepMind 发布的最新开源模型系列,共四个尺寸:

模型参数量架构定位
Gemma 4 E2B2BDense端侧/嵌入式
Gemma 4 E4B4BDense端侧/移动端
**Gemma 4 26B****26B****MoE****桌面级推理**
**Gemma 4 31B****31B****Dense****高质量生成**

本次测试聚焦后两个——26B MoE 和 31B Dense,它们面向的都是消费级 GPU 用户。

MoE vs Dense:架构差异

26B MoE (Mixture of Experts):总参数 26B,但每次推理只激活约 3.8B 参数。模型内部有多个"专家"子网络,路由机制动态选择最相关的专家处理输入。好处是——算力需求远低于参数总量暗示的水平。

31B Dense:所有 31B 参数在每次推理时全部参与计算。理论上能力上限更高,但计算量也成正比。

测试环境

项目配置
GPUNVIDIA RTX 4090 (24GB VRAM)
CPU / RAM62GB 系统内存
系统Ubuntu 20.04
推理框架Ollama 0.20.0
量化Q4 (4-bit)
26B MoE 模型大小9.6GB
31B Dense 模型大小19GB

两个模型都采用 Q4 量化。26B MoE 量化后仅 9.6GB,轻松塞进 24GB 显存并有大量余量;31B Dense 量化后 19GB,刚好能塞进去但余量紧张。

测试方法

通过 Ollama HTTP API 发送请求,设置 stream: false 以获取完整响应和精确的 token 统计。三个测试任务覆盖不同场景:

每个任务取单次结果,记录总 token 数、耗时和吞吐量 (tok/s)。

测试结果

Gemma 4 26B MoE

测试任务速度耗时生成 tokens
中文:西湖五言绝句**170.9 tok/s**8.9s870
英文:TCP vs UDP**169.0 tok/s**1.8s249
代码:Fibonacci**161.3 tok/s**11.2s1582

平均速度:~167 tok/s

Gemma 4 31B Dense

测试任务速度耗时生成 tokens
中文:西湖五言绝句**8.5 tok/s**141.7s1193
英文:TCP vs UDP**8.7 tok/s**38.2s325
代码:Fibonacci**8.5 tok/s**144.0s1211

平均速度:~8.6 tok/s

速度对比


26B MoE:  ████████████████████████████████████████ 167 tok/s
31B Dense: ██ 8.6 tok/s
Qwen3:14b: ███ 11.4 tok/s

26B MoE 比 31B Dense 快了 约 20 倍,比同机器上的 Qwen3:14b 快 约 15 倍

为什么差距这么大?26B MoE 每次推理只激活 3.8B 参数(总参数的 15%),而 31B Dense 需要全量计算 31B 参数。在 4090 上,9.6GB 的 MoE 模型完全在显存内运行,充分利用了 GPU 的算力带宽。19GB 的 Dense 模型虽然也能塞进显存,但计算量是 MoE 的 8 倍以上。

生成质量对比

中文诗词

26B MoE 输出:


题西湖
烟波笼远山,春色拂柳烟。
苏堤垂画阁,醉卧湖心间。

31B Dense 输出:


西湖
烟柳绕湖光,荷香沁晚凉。
孤山凝古韵,远岫共清苍。

两首诗都合格,意境到位。但细看有差异:

英文和代码

英文解释和代码生成方面,两个模型的输出质量差异不大,都能正确完成任务。31B Dense 的解释略更详细(325 vs 249 tokens),代码注释也更丰富。

质量小结

31B Dense 在创意写作上确实更好——这符合预期,毕竟它动用了所有 31B 参数。但差距并不是代差,更像是"好"和"不错"的区别。考虑到 20 倍的速度差距,这点质量优势很难证明等待是值得的。

与其他模型的横向对比

模型速度 (tok/s)模型大小备注
**Gemma 4 26B MoE****~167****9.6GB****本次测试冠军**
Qwen3:14b11.4~8GB同机器测试
Gemma 4 31B Dense8.619GB质量略优但太慢

26B MoE 的 167 tok/s 在消费级 GPU 上几乎是即时响应级别的体验——打字都没它快。

结论与建议

选 26B MoE 的理由

1. 速度碾压:167 tok/s,比同级别模型快一个数量级

2. 显存友好:9.6GB 占用,24GB 显存富余大量空间(可以同时跑其他任务)

3. 质量够用:中英文和代码任务都能正确完成,日常使用完全没问题

4. MoE 的胜利:激活参数仅 3.8B 就达到 26B 级别的质量,性价比极高

什么时候考虑 31B Dense

4090 用户的最佳实践

对于 RTX 4090 用户,Gemma 4 26B MoE 是目前最值得跑的本地模型之一。9.6GB 的小体积、170 tok/s 的高速度、26B 参数的质量保障——三者兼得,这在以前是不可想象的。MoE 架构在消费级硬件上的优势被这次测试充分验证了。

如果你还在跑 Qwen3:14b 或类似大小的 Dense 模型,强烈建议试试 Gemma 4 26B MoE。同样的硬件,15 倍的速度提升,质量也不打折。


# 一行命令开始体验
ollama run gemma4:26b