史记知识图谱：AI Agent 让两千年古籍"活"起来

🎯 一句话版本

关于史记知识图谱：AI Agent 让两千年古籍"活"起来的深度研究报告

> 来源: https://github.com/baojie/shiji-kb

> 在线 Demo: https://baojie.github.io/shiji-kb

> 作者: baojie（微信 baojie_xigua）

> 工具: Claude Code + Claude Sonnet 4.5 / Opus 4.6

> 协议: CC BY-NC-SA 4.0（数据）+ MIT（脚本）

> 日期: 2026-03-10

📌 一句话总结

用 AI Agent（Claude Code）对《史记》全部 130 篇、57.7 万字进行自动化语义标注、实体提取、事件识别和知识图谱构建——把两千年前的古籍变成可搜索、可分析、可可视化的结构化知识库。

🎯 核心理念

> "现在没有人再会读没有标点符号的文章，未来也不会有人愿意读没有语法高亮的文章。"

就像标点符号让古文从"士大夫专利"变成"人人可读"，语法高亮（人名蓝色、地名绿色、官职红色……）将让历史文献从"专家研究对象"变成"大众认知工具"。

📊 已完成的成果

维度	数据
📚 文本标注	130/130 篇 ✅（100%）
🏷️ 实体提取	11,069 个词条，75,517 次标注
👤 人名	3,797 个
🗺️ 地名	1,880 个
🎖️ 官职	1,418 个
📅 事件	3,092 个（11 类事件类型）
⏱️ 事件年代	3,051 个标注公元纪年（98.7% 覆盖）
🔗 事件关系	4,385 条（8 种关系类型）
🗺️ 事件地铁图	130 条线路可视化
📦 知识单元	434 事实 + 241 技能
🧠 方法论 SKILL	7 个可复用文档

🔧 技术方案

11 类实体标注体系

类别	标记	词条数	示例
👤 人名	`@`	3,797	@秦始皇@
🗺️ 地名	`=`	1,880	=咸阳=
🎖️ 官职	`$`	1,418	$丞相$
📅 时间	`%`	979	%元年%
🏛️ 朝代	`&`	304	&秦&
📜 制度	`^`	661	^郡县制^
👥 族群	`~`	183	~匈奴~
🏺 器物	`*`	1,017	鼎
⭐ 天文	`!`	283	!彗星!
🐉 神话	`?`	250	?黄帝?
🌿 动植物	`🌿`	384	🌿龙🌿

AI Agent 驱动的工作流


《史记》原文（57.7 万字）
    ↓ Claude Code + Multi-Agent
1. 章节切分 + 段落编号（Purple Numbers）
    ↓
2. 11 类实体自动标注 → 75,517 次标注
    ↓
3. 实体消歧（644 处）+ 别名合并（586 条）
    ↓
4. 事件识别（3,092 个）+ 年代推断
    ↓
5. Agent 反思审查（两轮修正 1,441 处）
    ↓
6. 事件关系提取（4,385 条）
    ↓
7. HTML 生成 → 认知辅助阅读器
    ↓
8. 事件地铁图可视化

Agent 反思审查机制

这是项目中最有意思的设计之一：

第一轮反思：Agent 自动审查 130 章事件年代标注 → 修正 1,010 处 → 积累 25 条错误模式
第二轮反思：基于第一轮的错误模式再次审查 → 修正 431 处 → 积累 12 条新推理逻辑
年代覆盖率：从 25% 提升到 98.7%（3,051/3,092 个事件）

这就是 Karpathy autoresearch 思路在人文学科的应用——Agent 自己迭代改进自己的标注质量。

7 个可复用 SKILL 文档

从实践中提炼，可直接用于其他古籍项目：

1. 古籍知识图谱化（端到端方法论）

2. 古籍章节切分与编号

3. 古籍实体标注（NER 规范）

4. 古籍人名消歧（4 层启发式策略）

5. 古籍历史事件识别

6. 古籍事件提取与关系发现

7. 事件年代推断

💡 深度分析

为什么这个项目令人印象深刻

1. 规模：不是标注几段话的 demo，是全部 130 篇、57.7 万字的完整处理

2. 质量闭环：Agent 反思审查 → 错误模式积累 → 自动改进，形成正反馈

3. 可扩展设计：方法论 SKILL 化，从史记（57.7 万字）→ 二十六史（4000 万字）→ 全部古籍（数亿字）

4. 实用产出：不只是数据，还有在线阅读器、事件地铁图、争霸游戏

5. 严谨的方法论：圣经式编号、Purple Numbers、Lint 规则、格式规范

"认知辅助阅读"的创新

这个概念非常有力：把 IDE 的语法高亮思想应用到古文阅读。


没有标点的古文   →   加了标点的古文   →   语法高亮的古文
（古代士大夫）      （现代读者）         （AI 辅助时代）

原始代码         →   缩进格式化       →   IDE 语法高亮
（早期程序员）      （现代开发者）       （2026 开发者）

事件地铁图

把 3,092 个历史事件映射成 130 条"地铁线路"，事件是站点，关系是换乘。支持缩放/拖拽/搜索/实体链接/原文引用。这种可视化方式让跨篇章的历史脉络一目了然。

局限

1. AI 标注不完美：作者坦诚"不可避免地存在错误和疏漏"，但有持续迭代机制

2. 不涉及史实考证：严格限于《史记》文本本身，不做"真实 vs 传说"的判断

3. 版权灰区：现代标点本版权归中华书局，但原文为公有领域

4. 可视化初期：事件地铁图等还在 SVG 阶段，未来计划 D3.js/React

🔗 与我们的关联

直接启发

1. Agent 反思模式：两轮 Agent 反思审查的方法可以直接应用到我们的数据质量控制流程

2. SKILL 文档化：把方法论写成 SKILL 文档 → 可复用、可传递。这和 OpenClaw 的 Skills 体系完全契合

3. Claude Code 的重度使用案例：证明 Claude Code + Multi-Agent 可以处理大规模结构化标注任务

更大的图景

AI + 人文学科：不是替代学者，而是把"皓首穷经"数十年的工作压缩到数周
数字人文的基础设施：结构化的古籍数据 → API → 可被其他 AI 系统查询和使用
中文 NLP 的垂直场景：古汉语 NER 是非常有价值的训练数据

📊 评分

维度	评分（/10）
创新性	9.0 — 认知辅助阅读 + Agent 反思审查
技术深度	9.0 — 130 篇全量处理，7.5 万次标注
工程质量	8.5 — 完整的 SKILL 体系 + Lint 规则
学术价值	9.0 — 数字人文的标杆项目
实用价值	8.0 — 在线阅读器已可用
综合	8.7

报告由深度研究助手自动生成 | 2026-03-10

来源: https://github.com/baojie/shiji-kb

在线 Demo: https://baojie.github.io/shiji-kb

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）