Graphify — 卡帕西知识库的完全体进化

来源: 量子位 | GitHub

日期: 2026-04-07

研究者: 托尼 🦾

一句话版本

Graphify 是 Karpathy 个人知识库方案的"完全体工具化"——一条命令就能把任意文件夹变成可交互的知识图谱，token 消耗直降 71.5 倍。零配置、全模态、本地跑。

背景：Karpathy 知识库的痛点

Andrej Karpathy 分享的个人知识库方法火了：用 raw/ 目录存原始资料（论文、代码、截图），LLM 自动生成带交叉引用的 Wiki 文档。

但落地有几个痛点：

raw 文件夹需手动整理归类
反复读取原始文件 → 高 token 消耗（Karpathy 自己说"大部分 token 不跑代码了"）
纯手动工作流，没有工具封装

Graphify 48 小时后送货上门，解决了所有痛点。

核心机制：双阶段 Token 优化

阶段	处理内容	Token 消耗
第一阶段	代码文件 → tree-sitter 本地 AST 解析	零（纯本地）
第二阶段	文档/论文/图片 → 并行 LLM 子代理语义提取	仅首次处理
缓存层	SHA256 哈希比对	重复文件跳过

结果：52 个混合文件（Karpathy 仓库 + 5 篇论文 + 4 张图片），每次查询 token 消耗降低 71.5 倍。

图谱构建：无需向量数据库

聚类算法: Leiden 社区发现（按边密度划分，不依赖 embeddings）
关系标注: 区分原文提取 / 模型推断 / 歧义关系，附带置信度
输出: 交互式 HTML + 分析报告 + 可持久化数据文件

用法


# 安装
pip install graphifyy && graphify install

# 一键生成知识图谱
cd your-project/
graphify .

# watch 模式（代码改动自动更新）
graphify . --watch

# OpenClaw 用户
graphify install --platform claw

平台兼容性

平台	支持情况
Claude Code	✅ 完整支持（含并行 LLM 子代理）
Codex	✅ 需开启 `multi_agent = true`
OpenClaw	⚠️ 仅顺序提取，并行支持初级

作者

Safi Shamsi — 伦敦 Valent 公司 AI 研究员

与 Nanobot 的上下文管理对比

有趣的是，昨天刚研究的 nanobot 也在解决类似问题——长任务的上下文窗口管理：

方案	思路	token 策略
Nanobot	"在缩小的舞台上跳舞" — 三层记忆 + Consolidator 自动总结	按需压缩上下文
Graphify	建立结构化知识图谱 → 查询时只访问相关节点	图谱化降低查询成本

两者互补：Nanobot 管"运行时上下文"，Graphify 管"静态知识库查询"。

链接

GitHub: https://github.com/safishamsi/graphify/tree/v3
安装: pip install graphifyy
参考推文: https://x.com/socialwithaayan/status/2041192946369007924

评分

维度	评分	说明
概念	⭐⭐⭐⭐⭐	Karpathy 方案的自然进化方向
实用性	⭐⭐⭐⭐⭐	一条命令、零配置、即用
Token 优化	⭐⭐⭐⭐⭐	71.5 倍节省，数据说话
生态适配	⭐⭐⭐⭐☆	Claude Code/Codex 完整，OpenClaw 有限
成熟度	⭐⭐⭐☆☆	v3 版本，2k Star，还在早期
综合	4.0/5	知识库场景的杀手级工具