NVIDIA DGX Spark:桌面级 AI 超算的理想与现实
> 来源: https://www.nvidia.com/en-us/products/workstations/dgx-spark/
> 评测: https://intuitionlabs.ai/articles/nvidia-dgx-spark-review
> 发布: 2025 年 10 月
> 价格: $4,699(2026 年 2 月涨价后)
> 日期: 2026-03-13
📌 一句话总结
NVIDIA 把 Grace Blackwell 芯片塞进一个 15cm 见方的金色小盒子——128GB 统一内存、1 PFLOPS AI 算力、可跑 200B 参数模型。听起来完美,但实测性价比打折扣:生成速度慢于 M4 Max,价格贵了一倍于 AMD Strix Halo。
💻 硬件规格
| 参数 | 数值 |
|---|---|
| **芯片** | NVIDIA GB10 Grace Blackwell Superchip |
| **CPU** | 20 核 ARM(10× Cortex-X925 + 10× Cortex-A725) |
| **GPU** | Blackwell 架构 |
| **内存** | 128 GB LPDDR5x **统一内存**(CPU/GPU 共享) |
| **存储** | 4 TB SSD |
| **AI 算力** | 1 PFLOPS(FP4 精度) |
| **最大模型** | 200B 参数(本地) |
| **尺寸** | 150 × 150 × 50.5 mm |
| **功耗** | ~100W |
| **接口** | USB-C, HDMI, 以太网, ConnectX-7 |
| **OS** | NVIDIA DGX OS(Ubuntu 基础) |
💰 价格变化
| 时间 | 版本 | 价格 |
|---|---|---|
| 2025-10(发布) | Founders Edition 4TB | **$3,999** |
| 2026-02(涨价) | Founders Edition 4TB | **$4,699**(+18%) |
涨价原因:LPDDR5x 内存供应紧张。
📊 性能实测对比
llama.cpp 推理(Llama 系列模型)
| 指标 | DGX Spark | M4 Max 128GB | AMD Strix Halo 128GB | 3×RTX 3090 |
|---|---|---|---|---|
| **Prompt Processing** | 1,723 tok/s | ~514 tok/s | 340 tok/s | 1,642 tok/s |
| **Token Generation** | ~25 tok/s | ~34 tok/s | — | ~34 tok/s |
| **价格** | $4,699 | ~$4,000+ | ~$2,348 | ~$1,500(二手) |
关键发现:
- 🟢 Prompt Processing 很快:DGX Spark 比 M4 Max 快 3.35 倍(得益于 FP4 和 Blackwell 架构)
- 🔴 Token Generation 慢:DGX Spark 只有 M4 Max 的 0.73 倍(M4 Max 内存带宽是 Spark 的 2 倍)
- 🔴 性价比差:AMD Strix Halo 便宜一半,FP8/FP16 推理性能接近
CES 2026 更新后
NVIDIA 在 CES 2026 推送软件更新,通过 TensorRT-LLM 优化 + speculative decoding 实现 2.5 倍性能提升,大幅改善了发布初期的性能表现。
✅ 优点
1. 128GB 统一内存:可以跑太大而塞不进普通 GPU 的模型(70B、100B+)
2. CUDA 生态:完整的 NVIDIA 软件栈,开箱即用的容器和工具
3. 极致小巧:15cm 见方,桌面放得下
4. 安静:低功耗,散热安静
5. 远程访问:NVIDIA Sync 工具支持远程开发
6. NVFP4 支持:4-bit 精度推理,大幅减少模型内存占用
❌ 缺点
1. 生成速度慢于 M4 Max:内存带宽是瓶颈(LPDDR5x vs M4 Max 的更高带宽)
2. 涨价 18%:从 $3,999 涨到 $4,699,竞争力下降
3. AMD Strix Halo 便宜一半:$2,348 就能买到 128GB 统一内存 + 可比的推理性能
4. CUDA 软件问题:Reddit 社区报告部分 CUDA 工具兼容性问题
5. 不能玩游戏:ARM 架构,不支持 x86 游戏生态
6. 3×RTX 3090 DIY 更强:~$1,500 二手 DIY 方案吞吐量更高
🆚 竞品横向对比
| 维度 | DGX Spark | M4 Max 128GB | Strix Halo 128GB | 3×RTX 3090 DIY |
|---|---|---|---|---|
| **价格** | $4,699 | ~$4,000+ | ~$2,348 | ~$1,500 |
| **统一内存** | 128 GB | 128 GB | 128 GB | 72 GB(3×24) |
| **Prompt 速度** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| **生成速度** | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| **200B 模型** | ✅ | ✅ | ✅ | ❌(内存不够) |
| **CUDA 生态** | ✅ 完整 | ❌ | ❌ | ✅ |
| **体积** | 极小 | 小 | 中 | 大(DIY) |
| **功耗** | ~100W | ~100W | ~65W | ~900W |
| **适合人群** | CUDA 开发者 | macOS 用户 | 性价比首选 | 极客/预算型 |
💡 谁该买 DGX Spark?
适合:
- 必须用 CUDA/TensorRT 的 AI 研究者
- 需要跑 100B+ 模型的开发者
- 追求桌面一体化体验、不想 DIY 的人
- 企业/机构(NVIDIA 企业支持)
不适合:
- 追求性价比 → AMD Strix Halo
- 追求生成速度 → M4 Max 或 3×3090
- 需要 x86 兼容 → Strix Halo 或 DIY
- 预算有限 → 任何其他方案都比它便宜
💡 与我们的关联
1. 本地模型推理参考:如果我们要跑 Step 3.5 Flash(196B)等大模型,DGX Spark 的 128GB 统一内存是可选方案
2. 但 M4 Max 更划算:我们之前评估过 Step 3.5 Flash 在 M4 Max 128GB 上跑到 48 tok/s(Q4_K_S),生成速度比 DGX Spark 更快
3. OpenClaw Agent 硬件:auxten 用 Mac Mini 跑 OpenClaw,DGX Spark 也可以——但 $4,699 的价格不如 Mac Mini + 外接方案
4. 等降价或等下一代:当前性价比不够好,等内存供应恢复或 GB20 发布后再看
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 硬件设计 | 9.0 — 极致小巧,工程精湛 |
| 性能表现 | 7.0 — PP 快但 TG 慢,更新后改善 |
| 性价比 | 5.5 — 涨价后竞争力下降 |
| 生态系统 | 9.0 — CUDA + TensorRT + 容器,完整 |
| 与我们的关联 | 5.0 — M4 Max 对我们更实用 |
| **综合** | **7.5** |
报告由深度研究助手自动生成 | 2026-03-13
来源: https://www.nvidia.com/en-us/products/workstations/dgx-spark/ | https://intuitionlabs.ai/articles/nvidia-dgx-spark-review