🌟 DwarfStar 4 (ds4):Redis 创始人手搓的 DeepSeek V4 Flash 本地推理引擎

> 来源: https://github.com/antirez/ds4

> 日期: 2026-05-07 发布,2026-05-15 报告

> 作者: Salvatore "antirez" Sanfilippo

一句话版本

Salvatore Sanfilippo(Redis 创始人)在 5 月 7 日用纯 C 手写了一个完全自包含的本地推理引擎,专门跑 DeepSeek V4 Flash——一个 284B 参数的 MoE 模型,2-bit 量化后仅 81GB,MacBook 96GB+ 就能跑 26 token/s。

核心内容

这是谁做的?

Salvatore "antirez" Sanfilippo,Redis 的创始人。他在 2009 年创造了 Redis,领导了 11 年,在数据库行业有神话级别的声望。2026 年 5 月 7 日,他扔出了这个项目——不是分支,不是包装器,是真从 0 开始的 C 代码。

5 天 7.1K+ stars。Reddit 热评:「这种侧面项目往往比多数生产环境都做得好。」

不是什么?解释严重

这不是:

这真的就只跑一个模型:DeepSeek V4 Flash(284B MoE,2026 年 4 月发布)。

关键创新:非对称 2-bit 量化

这是整个项目最聪明的部分。

通常 2-bit 量化会严重降低模型质量。antirez 的解法是不对称量化

结果:模型从 ~600GB 原始 fp16 → 2-bit 仅 ~81GB(imatrix 版),质量损失极小,还能可靠调用工具。

KV Cache:磁盘才是家

antirez 的一个激进理念——「压缩 KV cache + 现代 Mac 的快速 SSD = KV cache 应该是磁盘一等公民」。

1M token 上下文约需 26GB KV cache(压缩索引器约 22GB),直接落盘。服务器重启可以恢复 KV cache,真正做到长上下文持久化。

性能

配置PrefillGeneration
M3 Max 128GB, q258.52 t/s26.68 t/s
M3 Ultra 512GB, q284.43 t/s36.86 t/s
M3 Ultra 512GB, q478.95 t/s35.50 t/s
DGX Spark GB10, q2343.81 t/s13.75 t/s

功耗:MacBook 上峰值仅 50W——一台笔记本干六个月前需要数据中心 GPU 的活。

API 兼容层

服务器同时支持三种 API 协议:

全部支持 SSE streaming + 工具调用。

工具调用的规范回放是亮点:每次 tool call 得到唯一 ID,服务器记住模型采样的精确 DSML 字节。下次客户端回传该 ID 时,完全复现原始字节而非重新渲染——这样 KV cache 前缀匹配,不用重算。

DeepSeek V4 Flash 为什么值得专用引擎?

antirez 给了 8 条理由,我最服这条:

> 思维链长度与问题复杂度成正比。浅问题短思考,深问题长思考。其他模型的 thinking 动不动写满 token。DS4 Flash 的 thinking 经常只有别人的 1/5,还不影响质量。

其他理由:284B 参数的知识广度碾压 27-35B 模型、1M 上下文、KV cache 压缩惊人。

透明度

antirez 做了一个风险很高的决定——公开承认大量使用了 GPT 5.5 辅助开发,写在 README 第一页:

> "如果你不满意 AI 开发的代码,这个软件不适合你。同时请阅读致谢:这一点也离不开 llama.cpp 和 GGML,它们主要是人类手写的。"

他同时给 llama.cpp 和 GGML 写了单独的致谢章节,保留了 GGML 作者的版权声明。

项目哲学

原则含义
**单模型,端到端**一次只跑一个模型,但那个模型拿到极致优化
**官方向量验证**logits 必须与官方实现对齐
**编程 Agent 优先**设计决策优先服务 Claude Code / Codex / OpenCode
**零配置启动**`download_model.sh → make → ./ds4-server`
**诚实 Alpha**"只存在了几天,需要数月稳定"

附带功能

使用场景

项目关联

评分

维度分数说明
技术深度⭐⭐⭐⭐⭐从 0 写的 C/Metal 推理引擎,非对称量化设计极其精妙
创新性⭐⭐⭐⭐⭐KV cache 磁盘一等公民、工具调用规范回放、窄栈哲学
实用价值⭐⭐⭐⭐仅限高端 Mac/DGX Spark 用户,但已可做生产 Agent 后端
透明度⭐⭐⭐⭐⭐敢公开 AI 辅助开发,敢列所有 alpha 问题
文档完整度⭐⭐⭐⭐⭐README 详尽到子目录,子 README 自成体系

综合评分:4.9 / 5.0 — 这是我在 deep-research 频道见到过的质量最高的个人项目之一。Redis 创始人的 C 代码功底 + 对 DeepSeek V4 Flash 的极致优化 + 极度透明的开发声明,组合成了 2026 年最值得关注的本地推理项目之一。

链接