史记知识图谱:AI Agent 让两千年古籍"活"起来
> 来源: https://github.com/baojie/shiji-kb
> 在线 Demo: https://baojie.github.io/shiji-kb
> 作者: baojie(微信 baojie_xigua)
> 工具: Claude Code + Claude Sonnet 4.5 / Opus 4.6
> 协议: CC BY-NC-SA 4.0(数据)+ MIT(脚本)
> 日期: 2026-03-10
📌 一句话总结
用 AI Agent(Claude Code)对《史记》全部 130 篇、57.7 万字进行自动化语义标注、实体提取、事件识别和知识图谱构建——把两千年前的古籍变成可搜索、可分析、可可视化的结构化知识库。
🎯 核心理念
> "现在没有人再会读没有标点符号的文章,未来也不会有人愿意读没有语法高亮的文章。"
就像标点符号让古文从"士大夫专利"变成"人人可读",语法高亮(人名蓝色、地名绿色、官职红色……)将让历史文献从"专家研究对象"变成"大众认知工具"。
📊 已完成的成果
| 维度 | 数据 |
|---|---|
| 📚 文本标注 | 130/130 篇 ✅(100%) |
| 🏷️ 实体提取 | 11,069 个词条,75,517 次标注 |
| 👤 人名 | 3,797 个 |
| 🗺️ 地名 | 1,880 个 |
| 🎖️ 官职 | 1,418 个 |
| 📅 事件 | 3,092 个(11 类事件类型) |
| ⏱️ 事件年代 | 3,051 个标注公元纪年(98.7% 覆盖) |
| 🔗 事件关系 | 4,385 条(8 种关系类型) |
| 🗺️ 事件地铁图 | 130 条线路可视化 |
| 📦 知识单元 | 434 事实 + 241 技能 |
| 🧠 方法论 SKILL | 7 个可复用文档 |
🔧 技术方案
11 类实体标注体系
| 类别 | 标记 | 词条数 | 示例 |
|---|---|---|---|
| 👤 人名 | `@` | 3,797 | @秦始皇@ |
| 🗺️ 地名 | `=` | 1,880 | =咸阳= |
| 🎖️ 官职 | `$` | 1,418 | $丞相$ |
| 📅 时间 | `%` | 979 | %元年% |
| 🏛️ 朝代 | `&` | 304 | &秦& |
| 📜 制度 | `^` | 661 | ^郡县制^ |
| 👥 族群 | `~` | 183 | ~匈奴~ |
| 🏺 器物 | `*` | 1,017 | *鼎* |
| ⭐ 天文 | `!` | 283 | !彗星! |
| 🐉 神话 | `?` | 250 | ?黄帝? |
| 🌿 动植物 | `🌿` | 384 | 🌿龙🌿 |
AI Agent 驱动的工作流
《史记》原文(57.7 万字)
↓ Claude Code + Multi-Agent
1. 章节切分 + 段落编号(Purple Numbers)
↓
2. 11 类实体自动标注 → 75,517 次标注
↓
3. 实体消歧(644 处)+ 别名合并(586 条)
↓
4. 事件识别(3,092 个)+ 年代推断
↓
5. Agent 反思审查(两轮修正 1,441 处)
↓
6. 事件关系提取(4,385 条)
↓
7. HTML 生成 → 认知辅助阅读器
↓
8. 事件地铁图可视化
Agent 反思审查机制
这是项目中最有意思的设计之一:
- 第一轮反思:Agent 自动审查 130 章事件年代标注 → 修正 1,010 处 → 积累 25 条错误模式
- 第二轮反思:基于第一轮的错误模式再次审查 → 修正 431 处 → 积累 12 条新推理逻辑
- 年代覆盖率:从 25% 提升到 98.7%(3,051/3,092 个事件)
这就是 Karpathy autoresearch 思路在人文学科的应用——Agent 自己迭代改进自己的标注质量。
7 个可复用 SKILL 文档
从实践中提炼,可直接用于其他古籍项目:
1. 古籍知识图谱化(端到端方法论)
2. 古籍章节切分与编号
3. 古籍实体标注(NER 规范)
4. 古籍人名消歧(4 层启发式策略)
5. 古籍历史事件识别
6. 古籍事件提取与关系发现
7. 事件年代推断
💡 深度分析
为什么这个项目令人印象深刻
1. 规模:不是标注几段话的 demo,是全部 130 篇、57.7 万字的完整处理
2. 质量闭环:Agent 反思审查 → 错误模式积累 → 自动改进,形成正反馈
3. 可扩展设计:方法论 SKILL 化,从史记(57.7 万字)→ 二十六史(4000 万字)→ 全部古籍(数亿字)
4. 实用产出:不只是数据,还有在线阅读器、事件地铁图、争霸游戏
5. 严谨的方法论:圣经式编号、Purple Numbers、Lint 规则、格式规范
"认知辅助阅读"的创新
这个概念非常有力:把 IDE 的语法高亮思想应用到古文阅读。
没有标点的古文 → 加了标点的古文 → 语法高亮的古文
(古代士大夫) (现代读者) (AI 辅助时代)
原始代码 → 缩进格式化 → IDE 语法高亮
(早期程序员) (现代开发者) (2026 开发者)
事件地铁图
把 3,092 个历史事件映射成 130 条"地铁线路",事件是站点,关系是换乘。支持缩放/拖拽/搜索/实体链接/原文引用。这种可视化方式让跨篇章的历史脉络一目了然。
局限
1. AI 标注不完美:作者坦诚"不可避免地存在错误和疏漏",但有持续迭代机制
2. 不涉及史实考证:严格限于《史记》文本本身,不做"真实 vs 传说"的判断
3. 版权灰区:现代标点本版权归中华书局,但原文为公有领域
4. 可视化初期:事件地铁图等还在 SVG 阶段,未来计划 D3.js/React
🔗 与我们的关联
直接启发
1. Agent 反思模式:两轮 Agent 反思审查的方法可以直接应用到我们的数据质量控制流程
2. SKILL 文档化:把方法论写成 SKILL 文档 → 可复用、可传递。这和 OpenClaw 的 Skills 体系完全契合
3. Claude Code 的重度使用案例:证明 Claude Code + Multi-Agent 可以处理大规模结构化标注任务
更大的图景
- AI + 人文学科:不是替代学者,而是把"皓首穷经"数十年的工作压缩到数周
- 数字人文的基础设施:结构化的古籍数据 → API → 可被其他 AI 系统查询和使用
- 中文 NLP 的垂直场景:古汉语 NER 是非常有价值的训练数据
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 创新性 | 9.0 — 认知辅助阅读 + Agent 反思审查 |
| 技术深度 | 9.0 — 130 篇全量处理,7.5 万次标注 |
| 工程质量 | 8.5 — 完整的 SKILL 体系 + Lint 规则 |
| 学术价值 | 9.0 — 数字人文的标杆项目 |
| 实用价值 | 8.0 — 在线阅读器已可用 |
| **综合** | **8.7** |
报告由深度研究助手自动生成 | 2026-03-10
来源: https://github.com/baojie/shiji-kb
在线 Demo: https://baojie.github.io/shiji-kb