LongMemEval-V2: 评估 Agent 长期记忆的标杆基准
> 一句话版本: 这是一个用来测试 AI Agent "记忆力"的考试题集 —— 看看 AI 在长期使用一个网站(比如购物后台)之后,能不能像一个老员工一样记住页面布局、工作流程、常见坑,甚至发现那些"换个环境就不成立"的假设。总共 451 道题,查询历史多达 115M tokens(相当于几百万字)。
- 来源: https://arxiv.org/abs/2605.12493
- 日期: 2026-05-12
- 作者: Di Wu, Zixiang Ji, Asmi Kawatkar, Bryan Kwan, Jia-Chen Gu, Nanyun Peng, Kai-Wei Chang — UCLA
- 项目主页: https://xiaowu0162.github.io/longmemeval-v2/
- 代码: https://github.com/xiaowu0162/LongMemEval-V2/
- 数据: https://huggingface.co/datasets/xiaowu0162/longmemeval-v2
背景:为什么需要这个基准
现有的 Agent 记忆基准大多围绕三件事:
1. 用户聊天历史(比如记住用户喜欢什么)
2. 短轨迹(一次会话内发生了什么)
3. 下游任务成败(能不能完成任务,而不是直接测记忆质量)
但没有人真正直接测过:一个记忆系统能不能把 Agent 在某个环境里反复执行任务的经验,转化成可复用的"环境知识"?
这个问题对 Web Agent 特别关键 —— 你需要记住页面上某个按钮在哪儿、哪个操作会导致系统报错、某个流程有几步。这些知识不是从一次任务就能获得的,而是需要跨多次任务积累。
LME-V2 的五大记忆能力
> "一个高质量的记忆系统,应该让 Agent 成为一个特定环境里的"老同事"。"
| 能力 | 含义 | 类比 |
|---|---|---|
| **Static State Recall** | 记住 UI 布局、界面差异 | 老员工知道"设置按钮在右上角" |
| **Dynamic State Tracking** | 给定操作,推测环境会怎么变 | 老员工知道"点了这个会弹出确认框" |
| **Workflow Knowledge** | 知道完成常见任务需要几步 | 老员工知道"退款流程要三步" |
| **Environment Gotchas** | 知道环境里有哪些陷阱 | 老员工知道"这个按钮点了会报错,得先点别的" |
| **Premise Awareness** | 识别"在这里成立的假设,在别处不成立" | 老员工知道"这个按钮在旧版是有用的,新版已经废了" |
五种能力全覆盖 —— 这是现有基准里独一份的。
基准规模
| 层级 | 轨迹数 | Token 数 | 问题数 | 多模态 |
|---|---|---|---|---|
| LME-V2-Small | 100 | ~25M | 451 | ✅ (含截图) |
| LME-V2-Medium | 500 | ~115M | 451 | ✅ |
115M tokens 是什么概念? 大概相当于 300 多本《三体》的体量。这比任何现有 Agent 记忆基准都大一个数量级。
评估方式
Insert(轨迹) → Memory → Query(问题) → Return(压缩证据) → Reader LLM 回答
记忆系统要实现两个 API:
Insert(trajectory)— 把 Agent 轨迹流式写入记忆Query(question)→ 返回压缩后的上下文证据
然后一个固定的 Reader LLM 从证据中回答问题。同时度量准确率和查询延迟。
AgentRunbook:本文提出的记忆方法
AgentRunbook-R (RAG 路线)
- 三个知识池:原始状态截图、状态转换事件、策略笔记
- 用 LLM controller 主动更新和查询
- 准确率:57.8%
- 延迟:~26s/query
AgentRunbook-C (Coding Agent 路线)
- 把轨迹当文件存,查询时启动代码 Agent 翻文件找证据
- 配合工作流文档、记忆清单、辅助脚本
- 准确率:72.5%
- 延迟:~124s/query
实现原理详解
核心思路:把记忆管理变成文件管理。 每条 Agent 轨迹存成一个文件夹,查询时启动 Codex 翻文件找证据。
Phase 1: 写入记忆
每条轨迹被插入时,原样存到磁盘:
memory_workspace/
trajectory_001/
trajectory.json # 原始 Agent 轨迹数据
screenshots/ # 对应的屏幕截图
trajectory_002/
...
不做任何压缩,保留完整的多模态信息。
Phase 2: 查询前准备
收到问题后先渲染两份记忆清单,帮助 Codex 快速了解内容:
1. 精简摘要 — 每条轨迹的任务目标、成功/失败、关键动作
2. 详细摘要 — 更完整的元数据
然后创建隔离沙箱,放入:
- 用户问题
- 工作流文档(Workflow Document):告诉 Agent 它是记忆模块而不是回答者,以及收集证据的步骤
- 辅助脚本(Helper Script):暴露轨迹检索函数,如
inspect_trajectory()、search_trajectory()等 - 渲染好的清单
Phase 3: 执行检索
Codex Agent 启动后:
1. 先读清单,确定哪些轨迹可能包含答案
2. 用辅助脚本 inspect_state_span(trajectory_id, start, end) 逐段翻查
3. 写出结构化的检索结果 memory_module_output.json:
{
"memory_markdown": "在 trajectory_023 中,用户尝试过滤 Hardware Asset 列表...",
"trajectory_spans": [
{"trajectory_id": "trajectory_023", "start_state_index": 12, "end_state_index": 15}
]
}
memory_markdown:简要分析说明和策略笔记trajectory_spans:选中的状态范围(上限 20 个 state,防止返回过多内容)- 系统校验 JSON 后,把选中的状态数据和截图渲染进上下文,传给 Reader LLM 回答
三个脚手架组件的作用
| 组件 | 目的 | 不加会怎样 |
|---|---|---|
| **工作流文档** | 约束 Agent 行为:只找证据,不回答 | Codex 可能直接输出答案而非证据 |
| **记忆清单** | 快速筛选相关轨迹 | Codex 需逐个打开 100-500 个文件夹来猜 |
| **辅助脚本** | 提供标准化的轨迹检索接口 | Codex 自己写 Python 解析 JSON,易出错且慢 |
这三个设计让 AgentRunbook-C 比原版 Codex 快了 32%(~124s vs ~182s),准确率高了 3 个百分点(72.5% vs 69.3%)。
与 lossless-claw 的对比
| 维度 | AgentRunbook-C | lossless-claw / LCM |
|---|---|---|
| 存储方式 | 文件系统(原始 JSON + 截图) | DAG 摘要(结构化无损压缩) |
| 检索控制 | Codex Agent(通用编码 Agent) | grep/expand 工具 + 固定 API |
| 延迟 | ~124s/query | ~秒级 |
| 精确度 | 72.5%(限 20 个 state span) | 无损(所有消息全部保留) |
| 适用场景 | 一次性批量深度分析 | 实时对话检索 |
两套方案互补:LCM 适合实时上下文管理(快且无损),AgentRunbook-C 适合离线批量总结性检索(慢但灵活)。
实验数据
| 方法 | 准确率 (Sm) | 延迟 (Sm) | 准确率 (Med) | 延迟 (Med) |
|---|---|---|---|---|
| 无检索 (直接问 LLM) | 1.3% | 0s | 1.3% | 0s |
| RAG: slice only | 42.8% | 0.1s | 38.1% | 0.1s |
| RAG: slice+notes | 51.0% | 0.2s | 45.9% | 0.3s |
| **AgentRunbook-R** | 58.6% | 26.9s | 57.0% | 25.8s |
| Codex Agent | 69.9% | 177.2s | 68.7% | 185.8s |
| **AgentRunbook-C** | **74.9%** | 108.3s | **70.1%** | 139.9s |
关键发现:
- Codex 作为通用编码 Agent 已经很强 (69.3%),但太慢 (~182s)
- AgentRunbook-C 比 Codex 快 32%,准确率却更高
- 但 72.5% 绝非天花板 —— 论文明确指出"room for improvement remains substantial"
- 在 500 条轨迹的 Medium 难度下,所有方法准确率都在降,说明规模确实带来了新的挑战
LAFS 指标
本文提出了一个有趣的评估指标:准确率-延迟前沿得分 (LAFS)。
不是比谁"最准"或谁"最快",而是算你的方法在整个延迟预算范围内的可触及准确率积分。这避免了单一指标的缺陷 —— 一个 99% 准确但耗时 10 分钟的方法,在实际系统中可能不如 70% 但 5 秒返回的。
🔥 与我们的项目关联
这可能是 2026 年对我们最有直接相关性的 AI Agent 记忆论文之一。
理由:
1. LME-V2 引用了 LCM 论文(Ehrlich & Blackman, Voltropy PBC, Feb 2026)作为相关工作的关键参考 —— 这正是 lossless-claw 背后的核心技术
2. lossless-claw 是 LCM 在 OpenClaw 上的生产实现,已经被 Hermes Agent 等社区项目采用/复刻
3. LME-V2 的定位就是评测"Agent 能否通过积累经验成为环境里的老同事" —— 这是 LCM / lossless-claw 设计目标的一个完美对齐
4. 论文提出的Context Gathering评估范式(Insert + Query API)与我们自己的记忆系统设计思路一致
5. 论文提供的 Leaderboard 开放提交机制,意味着 lossless-claw 可以作为参赛方案直接评测
潜在行动:
- 考虑在 LME-V2 上评测 lossless-claw 的 LCM 系统,看它在"环境经验积累"上能得多少分
- 论文的 5 种记忆能力分类可以作为 lossless-claw 功能覆盖检查的参考框架
- AgentRunbook-C 的编码 Agent + 文件管理路线与 lossless-claw 的 DAG 摘要 + 检索路线是互补的,可以相互借鉴
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| 创新性 | ★★★★☆ | 首次系统性地定义和评测 Agent 的"环境经验记忆",五种能力分类很有洞察 |
| 实用性 | ★★★★★ | 直接对标真实需求 —— 长期使用的 Web Agent 记忆问题 |
| 规模 | ★★★★★ | 115M tokens / 500 轨迹,碾压现有基准 |
| 可复现 | ★★★★☆ | 数据全开源,WebArena 环境可部署,但部署门槛较高 |
| 与我们项目的关联 | ★★★★★ | 直接引用 LCM 论文,与 lossless-claw 技术同源 |
一句话总结
> 如果你在做一个需要"越用越聪明"的 AI Agent,这篇论文定义了你应该怎么测它的记忆力,而且给出了一个你很难满分通过的考试 —— 但只要你通过了,你的 Agent 就是真·老员工。