Meta-Harness:让 Claude Code 自动优化 Agent 的编排代码

> 来源: yoonholee.com/meta-harness / 论文 PDF

> 作者: Yoonho Lee, Chelsea Finn(Stanford), Omar Khattab(MIT, DSPy 作者)等

> 发布时间: 2026-03-30

> 互动: 731 likes, 819 bookmarks, 94.5K views

> 研究时间: 2026-03-31

🎯 一句话版本

Meta-Harness 是 Stanford + MIT 做的一个系统——让 Claude Code 读取之前所有失败/成功的代码、日志和分数(每步高达 1000 万 tokens 的诊断信息),然后自动写出更好的 agent 编排代码。在 TerminalBench-2 上排名 Opus 4.6 第二、Haiku 4.5 第一。

🧠 核心概念:什么是"Harness"

Harness = 围绕 LLM 的编排代码,包括:

模型是冻结的——Meta-Harness 不改模型,只优化模型周围的代码

类比:模型是引擎,harness 是车身、悬挂、变速箱。Meta-Harness 自动调校整台车。

🔧 工作原理


┌─────────────────────────────────────┐
│  文件系统(所有历史记录)              │
│  ├── candidate_001/                 │
│  │   ├── harness.py (源代码)        │
│  │   ├── traces/ (执行日志)         │
│  │   └── scores.json               │
│  ├── candidate_002/ ...             │
│  └── candidate_040/ ...             │
└───────────────┬─────────────────────┘
                ↓ grep, cat, 选择性读取
┌─────────────────────────────────────┐
│  Claude Code (Opus 4.6)             │
│  读取 trace → 分析失败原因 →         │
│  写出新的 harness.py                │
└───────────────┬─────────────────────┘
                ↓ 评估
        存入文件系统 → 循环

核心区别:之前的方法(Self-Refine、OPRO、TextGrad、AlphaEvolve 等)每步只能看 0.001-0.026M tokens 的压缩信息。Meta-Harness 每步可看 10M tokens 的完整诊断信息——通过文件系统 + grep/cat 选择性读取,不是全塞进 prompt。

方法历史可见度每步 context
Self-Refine只看上一次输出0.001M
OPRO最近几个(方案,分数)0.002M
AlphaEvolve代码库 + 分数0.022M
GEPArollout traces0.008M
**Meta-Harness****全部代码+trace+分数****10.0M**

差了 400-10000 倍的信息量。

📊 实验结果

文本分类(GPT-OSS-120B)

方法平均 AccuracyContext 消耗
Zero-shot27.4%0
Few-shot (all)40.8%49.3K
ACE(人工设计)40.9%203K
**Meta-Harness****48.6%****45.5K**

+7.7%,同时用 4 倍更少的 context。在 LawBench(215 类)上提升 16 个百分点。

数学推理(200 道 IMO 级,跨 5 个模型泛化)

方法平均 pass@1
No retriever34.1%
BM2537.5%
**Meta-Harness****38.8%** (+4.7%)

发现的检索策略在 5 个未见过的模型上都有提升——说明学到的是通用策略。

TerminalBench-2(89 个 Docker 化 CLI 任务)⭐

AgentOpus 4.6 Pass%
Claude Code58.0%
Terminus-KIRA74.7%
**Meta-Harness****76.4%** (#2)
ForgeCode81.8% (#1)
AgentHaiku 4.5 Pass%
Claude Code27.5%
Goose35.5%
**Meta-Harness****37.6%** (#1)

小模型上效果更猛——Haiku 4.5 上从 27.5% 直接拉到 37.6%。

搜索效率

Meta-Harness 用 10 倍更少的评估次数 达到 OpenEvolve/TTT-Discover 的最终准确率。4 次迭代就匹配了它们的终点。

🔑 关键发现

Trace 是关键(不能只看分数)

信息级别Median Accuracy
Full filesystem(trace+代码+分数)**50.0%**
Scores only34.6%

差 15.4 个百分点——完整执行 trace 是归因和改进的关键。

Credit Assignment 问题

长任务失败时,压缩成一个分数无法归因。Meta-Harness 保留完整 trace,让 Claude Code 可以:

🎓 通俗理解:用深度研究 agent 举例

假设要自动优化我们的"深度研究"流程。当前流程写在 AGENTS.md 里——这就是一个 harness

第 1 轮:用当前 AGENTS.md 跑 50 篇链接,记录每篇的完整过程(调了什么工具、prompt 是什么、输出了什么、用户给了几分)。全部存到一个文件夹。

第 2 轮:让 Claude Code 读这 50 篇的完整日志,发现:

> "第 23 篇论文,web_fetch 只拿到了摘要没抓到方法论细节,报告技术深度不够,评分低。但第 7 篇用了 PDF 工具读全文,评分就高。"

于是 Claude Code 改写 AGENTS.md——加一条:如果链接是 arxiv,先用 pdf 工具读全文

第 3 轮:再跑 50 篇,效果好了。又发现:

> "第 12 篇 GitHub 项目只读了 README 没读源码,评分低。读了源码的就高。"

再改:如果是 GitHub 项目,额外读 3 个核心源文件

循环 20 轮,AGENTS.md 越来越好。

关键区别:之前的方法只告诉优化器"这篇报告得了 6 分",优化器只能瞎猜怎么改。Meta-Harness 把完整执行日志全部给 Claude Code 看,所以它能精确归因——"是因为没读源码才扣分的"。

一句话总结:Meta-Harness = 让 AI 读自己干活的完整日志,然后自动改进自己的工作流程。

⚠️ 代码开源状态

目前没有开源代码。 作者 GitHub(github.com/yoonholee)上没有 meta-harness 仓库。有一个相关的 claude-code-wrapper("Minimal wrapper around claude -p with logging"),可能是跑实验时记日志的基础工具。

论文标注为 Preprint,代码可能在正式发表后开源,也可能不开源。

不过论文里的 proposer 就是 Claude Code(claude -p 命令行模式),整个外循环本质上是:

1. 一个目录结构存历史日志

2. 一段 Python 脚本调 Claude Code 读目录、写新 harness

3. 一段评估脚本跑 benchmark

思路不复杂,核心壁垒是"让 agent 读文件系统而不是塞 prompt"的设计决策 + 大量 Claude Code 调用费用

💡 与我们的关联

1. 这就是 agent 工程的未来方向

我们手写 AGENTS.md、SOUL.md、prompt engineering——Meta-Harness 说这些都可以自动优化。给定一个任务目标和评估指标,让 agent 自己迭代优化自己的编排代码。

2. 我们的 OpenClaw skill 可以这样改进

Meta-Harness 发现的 harness 包括检索策略、prompt 构造、验证逻辑——这些正是 OpenClaw skill 的组成部分。理论上可以用 Meta-Harness 的方法自动优化我们的深度研究 workflow。

3. 文件系统 > Prompt 塞入

Meta-Harness 的核心洞察——用文件系统 + grep/cat 让 agent 选择性读取,而不是把所有东西塞进一个 prompt——和 OpenClaw 的 workspace 模式完全一致。MEMORY.md、AGENTS.md 就是这种"文件系统即上下文"的朴素版本。

4. 作者阵容

Yoonho Lee + Chelsea Finn(Stanford, meta-learning 权威)+ Omar Khattab(MIT, DSPy 作者)。DSPy 就是"自动优化 LLM pipeline"的先驱,Meta-Harness 是 DSPy 思路的自然延伸。

5. ACON/SUPO/Meta-Harness 三篇构成完整图景

三个层次,三种方法,都在解决同一个大问题:怎么让 agent 在长任务中更聪明

📊 评分

维度评分(/10)
技术深度9.5 — 完整框架 + 3 个 benchmark + ablation + leaderboard 排名
创新性9.0 — "文件系统即上下文" + 10M token 诊断信息
实验质量9.5 — 跨任务类型、跨模型泛化、与 leaderboard 对比
实用性8.0 — 需要大量 Claude Code 调用,成本高
与我们的相关度8.0 — 我们的 skill/workflow 都可以用这种方法迭代优化
**综合****9.0**

报告由深度研究助手自动生成 | 2026-03-31

来源: yoonholee.com/meta-harness / 论文 / x.com