NVIDIA DGX Spark：桌面级 AI 超算的理想与现实

🎯 一句话版本

关于NVIDIA DGX Spark：桌面级 AI 超算的理想与现实的深度研究报告

> 来源: https://www.nvidia.com/en-us/products/workstations/dgx-spark/

> 评测: https://intuitionlabs.ai/articles/nvidia-dgx-spark-review

> 发布: 2025 年 10 月

> 价格: $4,699（2026 年 2 月涨价后）

> 日期: 2026-03-13

📌 一句话总结

NVIDIA 把 Grace Blackwell 芯片塞进一个 15cm 见方的金色小盒子——128GB 统一内存、1 PFLOPS AI 算力、可跑 200B 参数模型。听起来完美，但实测性价比打折扣：生成速度慢于 M4 Max，价格贵了一倍于 AMD Strix Halo。

💻 硬件规格

参数	数值
芯片	NVIDIA GB10 Grace Blackwell Superchip
CPU	20 核 ARM（10× Cortex-X925 + 10× Cortex-A725）
GPU	Blackwell 架构
内存	128 GB LPDDR5x 统一内存（CPU/GPU 共享）
存储	4 TB SSD
AI 算力	1 PFLOPS（FP4 精度）
最大模型	200B 参数（本地）
尺寸	150 × 150 × 50.5 mm
功耗	~100W
接口	USB-C, HDMI, 以太网, ConnectX-7
OS	NVIDIA DGX OS（Ubuntu 基础）

💰 价格变化

时间	版本	价格
2025-10（发布）	Founders Edition 4TB	$3,999
2026-02（涨价）	Founders Edition 4TB	$4,699（+18%）

涨价原因：LPDDR5x 内存供应紧张。

📊 性能实测对比

llama.cpp 推理（Llama 系列模型）

指标	DGX Spark	M4 Max 128GB	AMD Strix Halo 128GB	3×RTX 3090
Prompt Processing	1,723 tok/s	~514 tok/s	340 tok/s	1,642 tok/s
Token Generation	~25 tok/s	~34 tok/s	—	~34 tok/s
价格	$4,699	~$4,000+	~$2,348	~$1,500（二手）

关键发现：

🟢 Prompt Processing 很快：DGX Spark 比 M4 Max 快 3.35 倍（得益于 FP4 和 Blackwell 架构）
🔴 Token Generation 慢：DGX Spark 只有 M4 Max 的 0.73 倍（M4 Max 内存带宽是 Spark 的 2 倍）
🔴 性价比差：AMD Strix Halo 便宜一半，FP8/FP16 推理性能接近

CES 2026 更新后

NVIDIA 在 CES 2026 推送软件更新，通过 TensorRT-LLM 优化 + speculative decoding 实现 2.5 倍性能提升，大幅改善了发布初期的性能表现。

✅ 优点

1. 128GB 统一内存：可以跑太大而塞不进普通 GPU 的模型（70B、100B+）

2. CUDA 生态：完整的 NVIDIA 软件栈，开箱即用的容器和工具

3. 极致小巧：15cm 见方，桌面放得下

4. 安静：低功耗，散热安静

5. 远程访问：NVIDIA Sync 工具支持远程开发

6. NVFP4 支持：4-bit 精度推理，大幅减少模型内存占用

❌ 缺点

1. 生成速度慢于 M4 Max：内存带宽是瓶颈（LPDDR5x vs M4 Max 的更高带宽）

2. 涨价 18%：从 $3,999 涨到 $4,699，竞争力下降

3. AMD Strix Halo 便宜一半：$2,348 就能买到 128GB 统一内存 + 可比的推理性能

4. CUDA 软件问题：Reddit 社区报告部分 CUDA 工具兼容性问题

5. 不能玩游戏：ARM 架构，不支持 x86 游戏生态

6. 3×RTX 3090 DIY 更强：~$1,500 二手 DIY 方案吞吐量更高

🆚 竞品横向对比

维度	DGX Spark	M4 Max 128GB	Strix Halo 128GB	3×RTX 3090 DIY
价格	$4,699	~$4,000+	~$2,348	~$1,500
统一内存	128 GB	128 GB	128 GB	72 GB（3×24）
Prompt 速度	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
生成速度	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
200B 模型	✅	✅	✅	❌（内存不够）
CUDA 生态	✅ 完整	❌	❌	✅
体积	极小	小	中	大（DIY）
功耗	~100W	~100W	~65W	~900W
适合人群	CUDA 开发者	macOS 用户	性价比首选	极客/预算型

💡 谁该买 DGX Spark？

适合：

必须用 CUDA/TensorRT 的 AI 研究者
需要跑 100B+ 模型的开发者
追求桌面一体化体验、不想 DIY 的人
企业/机构（NVIDIA 企业支持）

不适合：

追求性价比 → AMD Strix Halo
追求生成速度 → M4 Max 或 3×3090
需要 x86 兼容 → Strix Halo 或 DIY
预算有限 → 任何其他方案都比它便宜

💡 与我们的关联

1. 本地模型推理参考：如果我们要跑 Step 3.5 Flash（196B）等大模型，DGX Spark 的 128GB 统一内存是可选方案

2. 但 M4 Max 更划算：我们之前评估过 Step 3.5 Flash 在 M4 Max 128GB 上跑到 48 tok/s（Q4_K_S），生成速度比 DGX Spark 更快

3. OpenClaw Agent 硬件：auxten 用 Mac Mini 跑 OpenClaw，DGX Spark 也可以——但 $4,699 的价格不如 Mac Mini + 外接方案

4. 等降价或等下一代：当前性价比不够好，等内存供应恢复或 GB20 发布后再看

📊 评分

维度	评分（/10）
硬件设计	9.0 — 极致小巧，工程精湛
性能表现	7.0 — PP 快但 TG 慢，更新后改善
性价比	5.5 — 涨价后竞争力下降
生态系统	9.0 — CUDA + TensorRT + 容器，完整
与我们的关联	5.0 — M4 Max 对我们更实用
综合	7.5

报告由深度研究助手自动生成 | 2026-03-13

来源: https://www.nvidia.com/en-us/products/workstations/dgx-spark/ | https://intuitionlabs.ai/articles/nvidia-dgx-spark-review

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）