🧠 LongMemEval:AI 长期记忆标杆,ICLR 2025

> 来源: https://github.com/xiaowu0162/LongMemEval

> 项目页: https://xiaowu0162.github.io/long-mem-eval/

> 论文: https://arxiv.org/abs/2410.10813 (ICLR 2025)

> 日期: 2026-05-14

> 作者: Di Wu (UCLA), Hongwei Wang (Tencent AI Lab), Wenhao Yu (Tencent AI Lab), Yuwei Zhang (UCSD), Kai-Wei Chang (UCLA), Dong Yu (Tencent AI Lab)

一句话版本

LongMemEval 是 AI 长期记忆领域的标杆评测,ICLR 2025 接收论文。500 道题测试五大记忆能力——提取、多会话推理、知识更新、时间推理、弃权。Magi 的 87.2% 就出自这里。

核心内容

这是评测什么?

测试聊天助手的长期交互记忆。不是一问一答的"冷知识测试",而是构建一段有几十上百轮交互的对话历史,然后问一个需要从历史中挖掘信息的问题。

五种能力

能力说明典型问题
信息提取从大量对话中召回特定事实"用户上次提到的狗的名字是什么?"
多会话推理跨多个会话综合推断"用户在哪次会话中提过最想去的旅游目的地?"
知识更新识别用户信息的变化"用户的公司从腾讯跳到了阿里吗?"
时间推理基于时间戳和上下文的时间感知"用户是在去日本之前还是之后换了手机?"
弃权对未知信息主动拒绝回答问一个历史中从未提及的事,AI 应说不知道

数据集规模

变种大小会话数tokens
LongMemEval_S500 题~30-40 会话~115K
LongMemEval_M500 题~500 会话~1.5M
LongMemEval_Oracle500 题仅证据会话极小

评测方法

GPT-4o 作为裁判(LLM-as-judge)评判模型的回答是否正确。自己评测只需在自己的模型上跑生成,然后跑 evaluate_qa.py 即可。

论文关键发现

1. 粒度最优解是 round(轮次),不是 session。进一步压缩成原子事实会损失整体精度,但能提升多会话推理

2. 用记忆值本身做扁平索引就是个强基线。用提取的用户事实扩展 key 能提升 recall@k 4%、准确率 5%

3. 简单的时间感知索引 + 查询扩展就能提升时间推理 7-11%

4. 即使召回完美,阅读理解仍不 trivial。Chain-of-Note + 结构化 JSON 提示能提升最多 10 个绝对百分点

排行榜(2026年5月)

系统模型总体
🥇 Mastra Observational Memorygpt-5-mini**94.87%**
🥈 Mastra OMgemini-3-pro93.27%
🥉 Hindsightgemini-3-pro91.40%
Mastra OMgemini-3-flash89.20%
EmergenceMem Internal*gpt-4o86.00%*
Supermemorygemini-3-pro85.20%
**Magi**自研 L0-L4**87.2%** ⬆️
Mastra OMgpt-4o84.23%
Oraclegpt-4o82.40%
Zepgpt-4o71.20%
Full Context (原始 GPT-4o)gpt-4o60.20%

> *EmergenceMem Internal 不可复现

> ⚠️ 注意:不同系统的得分可能使用不同的 reader/actor 模型,直接对比不完全公平

其他公开分数

Magi 的 87.2% 怎么看?

Magi 的 87.2% 在排行榜中属于中上水平——远超原始 GPT-4o (60.2%)、Oracle (82.4%),也超过 Mastra OM gpt-4o (84.23%)。但落后于 Mastra OM gpt-5-mini (94.87%)、OMEGA (95.4%) 等使用更强推理模型的系统。

需要注意:Magi 是端到端桌面系统,不是在评测数据集上 fine-tune 过的论文系统。能跑出 87.2% 说明 L0-L4 记忆架构设计是有效的。

2026 年新动向

评分

维度评分说明
设计质量⭐⭐⭐⭐⭐覆盖五大记忆能力,设计严谨
影响力⭐⭐⭐⭐⭐ICLR 2025,被 Mastra/OMEGA/Magi 等广泛引用
可复现⭐⭐⭐⭐开源数据集+评测脚本,但 LLM-as-judge 有波动
可扩展⭐⭐⭐⭐⭐支持自定义故事生成,可扩展任意难度
实用性⭐⭐⭐⭐⭐对 AI 记忆系统开发者的必测基准

综合评分:4.8 / 5.0 — 长期记忆领域的标杆评测。如果你是做 Agent 记忆系统的,这个评测是必选项。

项目关联

链接