史记知识图谱:AI Agent 让两千年古籍"活"起来

> 来源: https://github.com/baojie/shiji-kb

> 在线 Demo: https://baojie.github.io/shiji-kb

> 作者: baojie(微信 baojie_xigua)

> 工具: Claude Code + Claude Sonnet 4.5 / Opus 4.6

> 协议: CC BY-NC-SA 4.0(数据)+ MIT(脚本)

> 日期: 2026-03-10

📌 一句话总结

用 AI Agent(Claude Code)对《史记》全部 130 篇、57.7 万字进行自动化语义标注、实体提取、事件识别和知识图谱构建——把两千年前的古籍变成可搜索、可分析、可可视化的结构化知识库

🎯 核心理念

> "现在没有人再会读没有标点符号的文章,未来也不会有人愿意读没有语法高亮的文章。"

就像标点符号让古文从"士大夫专利"变成"人人可读",语法高亮(人名蓝色、地名绿色、官职红色……)将让历史文献从"专家研究对象"变成"大众认知工具"。

📊 已完成的成果

维度数据
📚 文本标注130/130 篇 ✅(100%)
🏷️ 实体提取11,069 个词条,75,517 次标注
👤 人名3,797 个
🗺️ 地名1,880 个
🎖️ 官职1,418 个
📅 事件3,092 个(11 类事件类型)
⏱️ 事件年代3,051 个标注公元纪年(98.7% 覆盖)
🔗 事件关系4,385 条(8 种关系类型)
🗺️ 事件地铁图130 条线路可视化
📦 知识单元434 事实 + 241 技能
🧠 方法论 SKILL7 个可复用文档

🔧 技术方案

11 类实体标注体系

类别标记词条数示例
👤 人名`@`3,797@秦始皇@
🗺️ 地名`=`1,880=咸阳=
🎖️ 官职`$`1,418$丞相$
📅 时间`%`979%元年%
🏛️ 朝代`&`304&秦&
📜 制度`^`661^郡县制^
👥 族群`~`183~匈奴~
🏺 器物`*`1,017*鼎*
⭐ 天文`!`283!彗星!
🐉 神话`?`250?黄帝?
🌿 动植物`🌿`384🌿龙🌿

AI Agent 驱动的工作流


《史记》原文(57.7 万字)
    ↓ Claude Code + Multi-Agent
1. 章节切分 + 段落编号(Purple Numbers)
    ↓
2. 11 类实体自动标注 → 75,517 次标注
    ↓
3. 实体消歧(644 处)+ 别名合并(586 条)
    ↓
4. 事件识别(3,092 个)+ 年代推断
    ↓
5. Agent 反思审查(两轮修正 1,441 处)
    ↓
6. 事件关系提取(4,385 条)
    ↓
7. HTML 生成 → 认知辅助阅读器
    ↓
8. 事件地铁图可视化

Agent 反思审查机制

这是项目中最有意思的设计之一:

这就是 Karpathy autoresearch 思路在人文学科的应用——Agent 自己迭代改进自己的标注质量

7 个可复用 SKILL 文档

从实践中提炼,可直接用于其他古籍项目:

1. 古籍知识图谱化(端到端方法论)

2. 古籍章节切分与编号

3. 古籍实体标注(NER 规范)

4. 古籍人名消歧(4 层启发式策略)

5. 古籍历史事件识别

6. 古籍事件提取与关系发现

7. 事件年代推断

💡 深度分析

为什么这个项目令人印象深刻

1. 规模:不是标注几段话的 demo,是全部 130 篇、57.7 万字的完整处理

2. 质量闭环:Agent 反思审查 → 错误模式积累 → 自动改进,形成正反馈

3. 可扩展设计:方法论 SKILL 化,从史记(57.7 万字)→ 二十六史(4000 万字)→ 全部古籍(数亿字)

4. 实用产出:不只是数据,还有在线阅读器、事件地铁图、争霸游戏

5. 严谨的方法论:圣经式编号、Purple Numbers、Lint 规则、格式规范

"认知辅助阅读"的创新

这个概念非常有力:把 IDE 的语法高亮思想应用到古文阅读


没有标点的古文   →   加了标点的古文   →   语法高亮的古文
(古代士大夫)      (现代读者)         (AI 辅助时代)

原始代码         →   缩进格式化       →   IDE 语法高亮
(早期程序员)      (现代开发者)       (2026 开发者)

事件地铁图

把 3,092 个历史事件映射成 130 条"地铁线路",事件是站点,关系是换乘。支持缩放/拖拽/搜索/实体链接/原文引用。这种可视化方式让跨篇章的历史脉络一目了然。

局限

1. AI 标注不完美:作者坦诚"不可避免地存在错误和疏漏",但有持续迭代机制

2. 不涉及史实考证:严格限于《史记》文本本身,不做"真实 vs 传说"的判断

3. 版权灰区:现代标点本版权归中华书局,但原文为公有领域

4. 可视化初期:事件地铁图等还在 SVG 阶段,未来计划 D3.js/React

🔗 与我们的关联

直接启发

1. Agent 反思模式:两轮 Agent 反思审查的方法可以直接应用到我们的数据质量控制流程

2. SKILL 文档化:把方法论写成 SKILL 文档 → 可复用、可传递。这和 OpenClaw 的 Skills 体系完全契合

3. Claude Code 的重度使用案例:证明 Claude Code + Multi-Agent 可以处理大规模结构化标注任务

更大的图景

📊 评分

维度评分(/10)
创新性9.0 — 认知辅助阅读 + Agent 反思审查
技术深度9.0 — 130 篇全量处理,7.5 万次标注
工程质量8.5 — 完整的 SKILL 体系 + Lint 规则
学术价值9.0 — 数字人文的标杆项目
实用价值8.0 — 在线阅读器已可用
**综合****8.7**

报告由深度研究助手自动生成 | 2026-03-10

来源: https://github.com/baojie/shiji-kb

在线 Demo: https://baojie.github.io/shiji-kb