MemPalace Issue #27 — README 承诺 vs 代码现实的 7 个落差
> 一句话版本:有人对 MemPalace(47K ⭐ 的 AI 记忆系统)做了代码审计,发现 README 里吹的 7 个核心功能要么不存在、要么是假的、要么是误导性的。作者已承认并开始修复。
| 项目 | 信息 |
|---|---|
| 来源 | [MemPalace/mempalace#27](https://github.com/MemPalace/mempalace/issues/27) |
| 项目 | [MemPalace](https://github.com/MemPalace/mempalace)(47,352 ⭐, MIT) |
| 审计者 | [lhl](https://github.com/lhl),独立研究者 |
| 审计报告 | [lhl/agentic-memory/ANALYSIS-mempalace.md](https://github.com/lhl/agentic-memory/blob/main/ANALYSIS-mempalace.md) |
| 状态 | ✅ 作者已承认并积极修复 |
7 个落差
1. 矛盾检测 — 功能不存在
| README 说 | 代码实际 |
|---|---|
| 自动检测知识图谱中的矛盾 | `knowledge_graph.py` 没有任何矛盾检测逻辑。唯一去重是阻止完全相同的三元组。冲突事实(如两个不同的 `married_to` 值)会**静默累积** |
严重性:🔴 功能不存在
2. "30x 压缩,零信息损失" — 假的
| README 说 | 代码实际 |
|---|---|
| AAAK 是"无损缩写" | AAAK 是**有损缩写**:正则实体编码 + 关键词频率 + 55 字符截断。`decode()` 只是字符串拆分,无法重建原文。LongMemEval 从 96.6% 掉到 84.2%——12.4pp 的质量损失 |
严重性:🔴 核心声明为假
3. 96.6% LongMemEval — 误导性归因
| README 说 | 代码实际 |
|---|---|
| 96.6% 是 MemPalace 的分数 | 是"raw mode"的分数——未压缩原文存 ChromaDB,标准最近邻检索。宫殿结构(翼/房间/大厅)**根本没参与**。这测量的是 ChromaDB 默认嵌入模型的性能,不是 MemPalace |
严重性:🟡 误导性归因
4. "+34% 检索提升来自宫殿结构" — 标准技术
| README 说 | 代码实际 |
|---|---|
| 宫殿结构带来检索提升 | 只是把搜索范围从"所有抽屉"缩小到"翼"再到"翼+房间"。这是**元数据过滤**——任何向量数据库的标准技术,不是新颖的检索机制 |
严重性:🟡 误导性包装
5. "Haiku 重排 100%" — 不可验证
| README 说 | 代码实际 |
|---|---|
| 用 Haiku 重排达到 100% | benchmark 脚本里没有。方法未记录,无法从 repo 验证 |
严重性:🟡 不可验证
6. "壁橱"作为压缩摘要 — 名不副实
| README 说 | 代码实际 |
|---|---|
| Closets 是压缩摘要存储层 | AAAK 产生的是缩写,不是摘要。没有证据表明 closet 是独立于 drawer 的存储层 |
严重性:🟠 概念不匹配
7. 大厅类型结构化强制 — 概念性存在
| README 说 | 代码实际 |
|---|---|
| 大厅类型在结构上强制执行 | 大厅只作为元数据字符串存在,**不用于检索排序**,也不作为约束执行 |
严重性:🟠 有概念无实现
审计者总结
> "概念上有很多值得喜欢的地方,但结合这些和 benchmark(LongMemEval 用的是 raw ChromaDB,不是宫殿结构,AAAK 和 room-boosting 都会降低分数),令人担忧。"
作者回应
分析
这个 issue 为什么重要:
- 47K stars 的项目,README 夸大宣传问题严重
- 不是普通的 bug,是核心功能声明与实现不符
- 审计者 lhl 做了系统性对比(对比了多个 agentic memory 系统),MemPalace 是唯一有这种模式的
- LongMemEval 的 benchmark 本质上在测试 ChromaDB 而非 MemPalace——这是一个方法论问题
对开源 AI 生态的警示:
- 高 stars ≠ 高质量。47K stars 的项目核心功能可以不存在
- Benchmark 设计需要独立审计——README 可以选择性报告
- "记忆宫殿"的隐喻很吸引人,但实现需要经得起代码审查
正面信号:
- 作者快速承认并修复,态度值得肯定
- 社区审计发挥了作用
- 项目创建仅 12 天就 47K stars(2026-04-05),增长极快,说明市场需求真实存在
与 Jay 的关联
- Jay 之前研究过多个 AI 记忆系统(Hindsight 8.2K ⭐、nowledge-mem)
- MemPalace 的"记忆宫殿"概念(空间隐喻组织记忆)比 Hindsight 的纯向量检索更有趣
- 但这个 issue 说明:评估记忆系统不能只看 stars 和 README,需要看代码
- 如果 Jay 想给 OpenClaw 加长期记忆,Hindsight 的实现更可靠(实际在用,LongMemEval 91.4%)
- lhl 的 agentic-memory 审计项目 值得关注——系统化对比多个记忆系统
评分
| 维度 | 评分 (1-10) | 说明 |
|---|---|---|
| 审计质量 | 9 | 逐条对比 README vs 代码,有理有据 |
| 问题严重性 | 8 | 核心功能声明为假,不是小 bug |
| 社区价值 | 9 | 47K stars 项目的审计,对整个生态有警示意义 |
| 作者回应 | 8 | 快速承认并修复,态度好 |
| 与 Jay 的关联 | 8 | 直接影响记忆系统选型判断 |
| **总分** | **8.4** | 开源 AI 项目审计的标杆案例 |