Gemma 4 实测：26B MoE vs 31B Dense on RTX 4090

TL;DR

Google 于 2026 年 4 月 2 日发布了 Gemma 4 开源模型系列。我们在 RTX 4090 (24GB VRAM) 上用 Ollama 实测了 26B MoE 和 31B Dense 两个版本。结论：26B MoE 是 4090 用户的最佳选择——170 tok/s 的生成速度碾压一切同级别模型，而 31B Dense 虽然诗词质量略胜，但 8.5 tok/s 的速度基本不可用。

Gemma 4 模型架构

Gemma 4 是 Google DeepMind 发布的最新开源模型系列，共四个尺寸：

模型	参数量	架构	定位
Gemma 4 E2B	2B	Dense	端侧/嵌入式
Gemma 4 E4B	4B	Dense	端侧/移动端
Gemma 4 26B	26B	MoE	桌面级推理
Gemma 4 31B	31B	Dense	高质量生成

本次测试聚焦后两个——26B MoE 和 31B Dense，它们面向的都是消费级 GPU 用户。

MoE vs Dense：架构差异

26B MoE (Mixture of Experts)：总参数 26B，但每次推理只激活约 3.8B 参数。模型内部有多个"专家"子网络，路由机制动态选择最相关的专家处理输入。好处是——算力需求远低于参数总量暗示的水平。

31B Dense：所有 31B 参数在每次推理时全部参与计算。理论上能力上限更高，但计算量也成正比。

测试环境

项目	配置
GPU	NVIDIA RTX 4090 (24GB VRAM)
CPU / RAM	62GB 系统内存
系统	Ubuntu 20.04
推理框架	Ollama 0.20.0
量化	Q4 (4-bit)
26B MoE 模型大小	9.6GB
31B Dense 模型大小	19GB

两个模型都采用 Q4 量化。26B MoE 量化后仅 9.6GB，轻松塞进 24GB 显存并有大量余量；31B Dense 量化后 19GB，刚好能塞进去但余量紧张。

测试方法

通过 Ollama HTTP API 发送请求，设置 stream: false 以获取完整响应和精确的 token 统计。三个测试任务覆盖不同场景：

中文创作：写一首关于西湖的五言绝句
英文知识问答：用 3 句话解释 TCP vs UDP
代码生成：实现带 memoization 的 Fibonacci 函数

每个任务取单次结果，记录总 token 数、耗时和吞吐量 (tok/s)。

测试结果

Gemma 4 26B MoE

测试任务	速度	耗时	生成 tokens
中文：西湖五言绝句	170.9 tok/s	8.9s	870
英文：TCP vs UDP	169.0 tok/s	1.8s	249
代码：Fibonacci	161.3 tok/s	11.2s	1582

平均速度：~167 tok/s

Gemma 4 31B Dense

测试任务	速度	耗时	生成 tokens
中文：西湖五言绝句	8.5 tok/s	141.7s	1193
英文：TCP vs UDP	8.7 tok/s	38.2s	325
代码：Fibonacci	8.5 tok/s	144.0s	1211

平均速度：~8.6 tok/s

速度对比


26B MoE:  ████████████████████████████████████████ 167 tok/s
31B Dense: ██ 8.6 tok/s
Qwen3:14b: ███ 11.4 tok/s

26B MoE 比 31B Dense 快了 约 20 倍，比同机器上的 Qwen3:14b 快 约 15 倍。

为什么差距这么大？26B MoE 每次推理只激活 3.8B 参数（总参数的 15%），而 31B Dense 需要全量计算 31B 参数。在 4090 上，9.6GB 的 MoE 模型完全在显存内运行，充分利用了 GPU 的算力带宽。19GB 的 Dense 模型虽然也能塞进显存，但计算量是 MoE 的 8 倍以上。

生成质量对比

中文诗词

26B MoE 输出：


题西湖
烟波笼远山，春色拂柳烟。
苏堤垂画阁，醉卧湖心间。

31B Dense 输出：


西湖
烟柳绕湖光，荷香沁晚凉。
孤山凝古韵，远岫共清苍。

两首诗都合格，意境到位。但细看有差异：

26B MoE：用词流畅，"苏堤""湖心"点名西湖元素，但"春色拂柳烟"与首句的"烟"字重复，格律上不够严谨。
31B Dense：意境更凝练，"荷香沁晚凉"有通感之美，"孤山凝古韵"对仗工整。整体文学质量更高。

英文和代码

英文解释和代码生成方面，两个模型的输出质量差异不大，都能正确完成任务。31B Dense 的解释略更详细（325 vs 249 tokens），代码注释也更丰富。

质量小结

31B Dense 在创意写作上确实更好——这符合预期，毕竟它动用了所有 31B 参数。但差距并不是代差，更像是"好"和"不错"的区别。考虑到 20 倍的速度差距，这点质量优势很难证明等待是值得的。

与其他模型的横向对比

模型	速度 (tok/s)	模型大小	备注
Gemma 4 26B MoE	~167	9.6GB	本次测试冠军
Qwen3:14b	11.4	~8GB	同机器测试
Gemma 4 31B Dense	8.6	19GB	质量略优但太慢

26B MoE 的 167 tok/s 在消费级 GPU 上几乎是即时响应级别的体验——打字都没它快。

结论与建议

选 26B MoE 的理由

1. 速度碾压：167 tok/s，比同级别模型快一个数量级

2. 显存友好：9.6GB 占用，24GB 显存富余大量空间（可以同时跑其他任务）

3. 质量够用：中英文和代码任务都能正确完成，日常使用完全没问题

4. MoE 的胜利：激活参数仅 3.8B 就达到 26B 级别的质量，性价比极高

什么时候考虑 31B Dense

对中文创意写作有高要求（诗词、文学翻译）
不在意响应时间（批量离线任务）
愿意为微小的质量提升付出 20 倍的等待

4090 用户的最佳实践

对于 RTX 4090 用户，Gemma 4 26B MoE 是目前最值得跑的本地模型之一。9.6GB 的小体积、170 tok/s 的高速度、26B 参数的质量保障——三者兼得，这在以前是不可想象的。MoE 架构在消费级硬件上的优势被这次测试充分验证了。

如果你还在跑 Qwen3:14b 或类似大小的 Dense 模型，强烈建议试试 Gemma 4 26B MoE。同样的硬件，15 倍的速度提升，质量也不打折。


# 一行命令开始体验
ollama run gemma4:26b