pi-ds4 — 在自己的 Mac 上跑 284B DeepSeek V4 Flash 本機 AI
- 来源链接: https://audreyt.org/pi-ds4
- 日期: 2026-05-16
- 作者: Audrey Tang(唐鳳),fork 自 mitsuhiko/pi-ds4,引擎来自 antirez/ds4
一句话版本
pi-ds4 是一行指令就能在你自己的 MacBook 上本地运行全球最前沿的 AI 模型(DeepSeek V4 Flash,2840亿参数)的工具——不需要云服务、不需要付 API 费、不需要联网,所有数据都在你自己的电脑上,跑起来每秒还能生成 30 个 token。
核心内容
这是什么?
pi-ds4 是一套把 DeepSeek V4 Flash(284B 参数 Mixture-of-Experts 模型)搬到你本机 Mac 的完整方案。它包含三个层次:
1. ds4 引擎(antirez 用 C 写的推理引擎)——专门为 DeepSeek V4 Flash 优化,支持 Apple Metal 和 CUDA
2. pi-ds4 扩展——封装成一行 pi install 命令的安装包
3. audreyt 分支——唐鳳维护的分叉,增加方向性引导(directional steering)核心功能
为什么重要?
| 维度 | 云 API | pi-ds4 本机 |
|---|---|---|
| 费用 | 按 token 计费,上不封顶 | 一次电费,0 API 成本 |
| 数据隐私 | 数据要送上云 | 全部留在本机 |
| 频率限制 | 有,高频卡住 | 无限制 |
| 可复现性 | 种子不可控 | 固定 seed 42,工具 ID 稳定 |
| 审查边界 | 云服务商决定"不能说什么" | 用户完全掌控 |
但最关键的是可审核性(auditability)——固定 seed + 稳定工具调用 ID 意味着同一个输入可以重跑、diff、精确指认某次工具调用。这对公共决策、研究访谈、采购评估等需要事后检验的场景至关重要。
硬件需求
- RAM: 96 GB 起(128 GB 以上体验更好,96 GB 需要调高 Metal wired memory)
- 磁盘: 120 GB 以上空闲空间
- 芯片: 任何 Apple Silicon(M5 有 Metal 4 Tensor 加速,prefill 2.09x、decode 1.54x)
- 也可运行在: NVIDIA DGX Spark(128 GB 统一内存,Linux CUDA 路径)
安装
# 前提:先安装 pi CLI
# https://github.com/earendil-works/pi
# 一行安装
pi install github.com/audreyt/pi-ds4
# 首次启动:自动下载 87 GB 模型文件(1-3小时)、编译引擎、启动服务器
方向性引导(Directional Steering)——核心特色
这是 audreyt 分支的灵魂功能。它不在模型训练层面做改动,而是在推理时微调几个内部方向(低秩激活编辑),让模型在争议性问题(如主权争议、地缘政治)上进入"铺陈讨论"而非"给定答案"的模式。
对比效果:
- 未经引导的模型:对敏感问题直接输出训练数据中被强化的单一方回答
- 经过引导的模型:公平呈现多方利害关系人的观点,找出桥接各方的罕见共识
引导向量是在 120 个双语争议提示上校准的(英文/繁体中文各半),默认强度为 ffn=-0.75、attn=0。不影响工具调用语法。
作为 AI Shell 后端
pi-ds4 在 127.0.0.1:8000 同时暴露 OpenAI 和 Anthropic 兼容的 API 端点。支持作为以下工具的后端:
- Codex CLI
- Claude Code
- OpenClaw ⭐(Jay 正在用)
- Hermes Agent
每个只需要改一个环境变量或配置文件段落。
分析
技术意义
1. antirez(Redis 作者)用 C 写推理引擎这件事本身就很有分量。ds4 不走通用的 llama.cpp 路线,而是为 DeepSeek V4 Flash 量身定做的专用引擎,性能上限更高。
2. 87 GB 量化(IQ2XXS imatrix)把原生 284 GB 模型压到能塞进 Mac,是这一切可行的关键。
3. M5 Metal 4 Tensor 加速让 prefill 吞吐达到 ~370 t/s、decode ~32 t/s,已经达到可用水平。
与我们项目的关联
- Jay 使用 OpenClaw 作为 AI 开发平台。pi-ds4 可以直接作为 OpenClaw 的推理后端运行。这意味着:
- OpenClaw 调用 DeepSeek V4 Flash 免费无限量
- 所有对话数据完全本地化
- 可复现的决策轨迹(seed 42 + 稳定工具 ID)
- 不过前提是需要一台 96 GB+ RAM 的 Apple Silicon Mac 或 DGX Spark
- Jay 目前的服务器(Ubuntu, 1 vCPU, 2GB RAM)无法跑这个;这是一台客户端设备的解决方案
需要注意的点
- 硬件门槛高: 96 GB Mac 起步,不是普通人能用的方案
- 86 GB 磁盘消耗: 模型文件巨大
- 方向性引导的政治敏感性: audreyt 的引导在台湾主权议题上做了特定设计——这既是特色也是争议点
- 与上游互斥: 不能和 mitsuhiko/pi-ds4 共存,安装前需先卸载上游
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| 技术深度 | ⭐⭐⭐⭐⭐ | C 推理引擎 + 量化 + 方向性引导,工程密度极高 |
| 实用性 | ⭐⭐⭐⭐ | 对 96 GB Mac 用户来说非常实用,但门槛限制了受众 |
| 创新性 | ⭐⭐⭐⭐⭐ | 方向性引导的设计理念在开源模型中独一无二 |
| 文档质量 | ⭐⭐⭐⭐⭐ | 唐鳳写了完整的 11 章指南,中英对照,质量极高 |
| 与我们项目相关性 | ⭐⭐⭐⭐ | 可直接作为 OpenClaw 后端,但需额外硬件投入 |
综合评分:9/10
相关链接
- 完整指南:https://audreyt.org/pi-ds4
- GitHub 仓库:https://github.com/audreyt/pi-ds4
- 上游引擎:https://github.com/antirez/ds4
- 上游扩展:https://github.com/mitsuhiko/pi-ds4
- pi CLI:https://github.com/earendil-works/pi
- 模型文件:https://huggingface.co/audreyt/CyberNeurova-DeepSeek-V4-Flash-abliterated-GGUF
- Knightli 评测:https://www.knightli.com/en/2026/05/11/deepseek-v4-flash-ds4-metal/
- Flowtivity 指南:https://flowtivity.ai/blog/deepseek-v4-flash-ds4-local-inference-128gb-mac/