Graphify — 卡帕西知识库的完全体进化
日期: 2026-04-07
研究者: 托尼 🦾
一句话版本
Graphify 是 Karpathy 个人知识库方案的"完全体工具化"——一条命令就能把任意文件夹变成可交互的知识图谱,token 消耗直降 71.5 倍。零配置、全模态、本地跑。
背景:Karpathy 知识库的痛点
Andrej Karpathy 分享的个人知识库方法火了:用 raw/ 目录存原始资料(论文、代码、截图),LLM 自动生成带交叉引用的 Wiki 文档。
但落地有几个痛点:
- raw 文件夹需手动整理归类
- 反复读取原始文件 → 高 token 消耗(Karpathy 自己说"大部分 token 不跑代码了")
- 纯手动工作流,没有工具封装
Graphify 48 小时后送货上门,解决了所有痛点。
核心机制:双阶段 Token 优化
| 阶段 | 处理内容 | Token 消耗 |
|---|---|---|
| 第一阶段 | 代码文件 → tree-sitter 本地 AST 解析 | **零**(纯本地) |
| 第二阶段 | 文档/论文/图片 → 并行 LLM 子代理语义提取 | 仅首次处理 |
| 缓存层 | SHA256 哈希比对 | 重复文件**跳过** |
结果:52 个混合文件(Karpathy 仓库 + 5 篇论文 + 4 张图片),每次查询 token 消耗降低 71.5 倍。
图谱构建:无需向量数据库
- 聚类算法: Leiden 社区发现(按边密度划分,不依赖 embeddings)
- 关系标注: 区分原文提取 / 模型推断 / 歧义关系,附带置信度
- 输出: 交互式 HTML + 分析报告 + 可持久化数据文件
用法
# 安装
pip install graphifyy && graphify install
# 一键生成知识图谱
cd your-project/
graphify .
# watch 模式(代码改动自动更新)
graphify . --watch
# OpenClaw 用户
graphify install --platform claw
平台兼容性
| 平台 | 支持情况 |
|---|---|
| Claude Code | ✅ 完整支持(含并行 LLM 子代理) |
| Codex | ✅ 需开启 `multi_agent = true` |
| OpenClaw | ⚠️ 仅顺序提取,并行支持初级 |
作者
Safi Shamsi — 伦敦 Valent 公司 AI 研究员
与 Nanobot 的上下文管理对比
有趣的是,昨天刚研究的 nanobot 也在解决类似问题——长任务的上下文窗口管理:
| 方案 | 思路 | token 策略 |
|---|---|---|
| **Nanobot** | "在缩小的舞台上跳舞" — 三层记忆 + Consolidator 自动总结 | 按需压缩上下文 |
| **Graphify** | 建立结构化知识图谱 → 查询时只访问相关节点 | 图谱化降低查询成本 |
两者互补:Nanobot 管"运行时上下文",Graphify 管"静态知识库查询"。
链接
- GitHub: https://github.com/safishamsi/graphify/tree/v3
- 安装:
pip install graphifyy - 参考推文: https://x.com/socialwithaayan/status/2041192946369007924
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| 概念 | ⭐⭐⭐⭐⭐ | Karpathy 方案的自然进化方向 |
| 实用性 | ⭐⭐⭐⭐⭐ | 一条命令、零配置、即用 |
| Token 优化 | ⭐⭐⭐⭐⭐ | 71.5 倍节省,数据说话 |
| 生态适配 | ⭐⭐⭐⭐☆ | Claude Code/Codex 完整,OpenClaw 有限 |
| 成熟度 | ⭐⭐⭐☆☆ | v3 版本,2k Star,还在早期 |
| **综合** | **4.0/5** | 知识库场景的杀手级工具 |