Meta-Harness：让 Claude Code 自动优化 Agent 的编排代码

> 来源: yoonholee.com/meta-harness / 论文 PDF

> 作者: Yoonho Lee, Chelsea Finn（Stanford）, Omar Khattab（MIT, DSPy 作者）等

> 发布时间: 2026-03-30

> 互动: 731 likes, 819 bookmarks, 94.5K views

> 研究时间: 2026-03-31

🎯 一句话版本

Meta-Harness 是 Stanford + MIT 做的一个系统——让 Claude Code 读取之前所有失败/成功的代码、日志和分数（每步高达 1000 万 tokens 的诊断信息），然后自动写出更好的 agent 编排代码。在 TerminalBench-2 上排名 Opus 4.6 第二、Haiku 4.5 第一。

🧠 核心概念：什么是"Harness"

Harness = 围绕 LLM 的编排代码，包括：

构造什么 prompt
怎么检索/记忆
状态管理逻辑
工具调用策略
验证和重试逻辑

模型是冻结的——Meta-Harness 不改模型，只优化模型周围的代码。

类比：模型是引擎，harness 是车身、悬挂、变速箱。Meta-Harness 自动调校整台车。

🔧 工作原理


┌─────────────────────────────────────┐
│  文件系统（所有历史记录）              │
│  ├── candidate_001/                 │
│  │   ├── harness.py (源代码)        │
│  │   ├── traces/ (执行日志)         │
│  │   └── scores.json               │
│  ├── candidate_002/ ...             │
│  └── candidate_040/ ...             │
└───────────────┬─────────────────────┘
                ↓ grep, cat, 选择性读取
┌─────────────────────────────────────┐
│  Claude Code (Opus 4.6)             │
│  读取 trace → 分析失败原因 →         │
│  写出新的 harness.py                │
└───────────────┬─────────────────────┘
                ↓ 评估
        存入文件系统 → 循环

核心区别：之前的方法（Self-Refine、OPRO、TextGrad、AlphaEvolve 等）每步只能看 0.001-0.026M tokens 的压缩信息。Meta-Harness 每步可看 10M tokens 的完整诊断信息——通过文件系统 + grep/cat 选择性读取，不是全塞进 prompt。

方法	历史可见度	每步 context
Self-Refine	只看上一次输出	0.001M
OPRO	最近几个(方案,分数)	0.002M
AlphaEvolve	代码库 + 分数	0.022M
GEPA	rollout traces	0.008M
Meta-Harness	全部代码+trace+分数	10.0M

差了 400-10000 倍的信息量。

📊 实验结果

文本分类（GPT-OSS-120B）

方法	平均 Accuracy	Context 消耗
Zero-shot	27.4%	0
Few-shot (all)	40.8%	49.3K
ACE（人工设计）	40.9%	203K
Meta-Harness	48.6%	45.5K

+7.7%，同时用 4 倍更少的 context。在 LawBench（215 类）上提升 16 个百分点。

数学推理（200 道 IMO 级，跨 5 个模型泛化）

方法	平均 pass@1
No retriever	34.1%
BM25	37.5%
Meta-Harness	38.8% (+4.7%)

发现的检索策略在 5 个未见过的模型上都有提升——说明学到的是通用策略。

TerminalBench-2（89 个 Docker 化 CLI 任务）⭐

Agent	Opus 4.6 Pass%
Claude Code	58.0%
Terminus-KIRA	74.7%
Meta-Harness	76.4% (#2)
ForgeCode	81.8% (#1)

Agent	Haiku 4.5 Pass%
Claude Code	27.5%
Goose	35.5%
Meta-Harness	37.6% (#1)

小模型上效果更猛——Haiku 4.5 上从 27.5% 直接拉到 37.6%。

搜索效率

Meta-Harness 用 10 倍更少的评估次数 达到 OpenEvolve/TTT-Discover 的最终准确率。4 次迭代就匹配了它们的终点。

🔑 关键发现

Trace 是关键（不能只看分数）

信息级别	Median Accuracy
Full filesystem（trace+代码+分数）	50.0%
Scores only	34.6%

差 15.4 个百分点——完整执行 trace 是归因和改进的关键。

Credit Assignment 问题

长任务失败时，压缩成一个分数无法归因。Meta-Harness 保留完整 trace，让 Claude Code 可以：

追溯到具体哪行代码导致了下游失败
形成因果假设而不是猜测
做精准的代码修改

🎓 通俗理解：用深度研究 agent 举例

假设要自动优化我们的"深度研究"流程。当前流程写在 AGENTS.md 里——这就是一个 harness。

第 1 轮：用当前 AGENTS.md 跑 50 篇链接，记录每篇的完整过程（调了什么工具、prompt 是什么、输出了什么、用户给了几分）。全部存到一个文件夹。

第 2 轮：让 Claude Code 读这 50 篇的完整日志，发现：

> "第 23 篇论文，web_fetch 只拿到了摘要没抓到方法论细节，报告技术深度不够，评分低。但第 7 篇用了 PDF 工具读全文，评分就高。"

于是 Claude Code 改写 AGENTS.md——加一条：如果链接是 arxiv，先用 pdf 工具读全文。

第 3 轮：再跑 50 篇，效果好了。又发现：

> "第 12 篇 GitHub 项目只读了 README 没读源码，评分低。读了源码的就高。"

再改：如果是 GitHub 项目，额外读 3 个核心源文件。

循环 20 轮，AGENTS.md 越来越好。

关键区别：之前的方法只告诉优化器"这篇报告得了 6 分"，优化器只能瞎猜怎么改。Meta-Harness 把完整执行日志全部给 Claude Code 看，所以它能精确归因——"是因为没读源码才扣分的"。

一句话总结：Meta-Harness = 让 AI 读自己干活的完整日志，然后自动改进自己的工作流程。

⚠️ 代码开源状态

目前没有开源代码。 作者 GitHub（github.com/yoonholee）上没有 meta-harness 仓库。有一个相关的 claude-code-wrapper（"Minimal wrapper around claude -p with logging"），可能是跑实验时记日志的基础工具。

论文标注为 Preprint，代码可能在正式发表后开源，也可能不开源。

不过论文里的 proposer 就是 Claude Code（claude -p 命令行模式），整个外循环本质上是：

1. 一个目录结构存历史日志

2. 一段 Python 脚本调 Claude Code 读目录、写新 harness

3. 一段评估脚本跑 benchmark

思路不复杂，核心壁垒是"让 agent 读文件系统而不是塞 prompt"的设计决策 + 大量 Claude Code 调用费用。

💡 与我们的关联

1. 这就是 agent 工程的未来方向

我们手写 AGENTS.md、SOUL.md、prompt engineering——Meta-Harness 说这些都可以自动优化。给定一个任务目标和评估指标，让 agent 自己迭代优化自己的编排代码。

2. 我们的 OpenClaw skill 可以这样改进

Meta-Harness 发现的 harness 包括检索策略、prompt 构造、验证逻辑——这些正是 OpenClaw skill 的组成部分。理论上可以用 Meta-Harness 的方法自动优化我们的深度研究 workflow。

3. 文件系统 > Prompt 塞入

Meta-Harness 的核心洞察——用文件系统 + grep/cat 让 agent 选择性读取，而不是把所有东西塞进一个 prompt——和 OpenClaw 的 workspace 模式完全一致。MEMORY.md、AGENTS.md 就是这种"文件系统即上下文"的朴素版本。

4. 作者阵容

Yoonho Lee + Chelsea Finn（Stanford, meta-learning 权威）+ Omar Khattab（MIT, DSPy 作者）。DSPy 就是"自动优化 LLM pipeline"的先驱，Meta-Harness 是 DSPy 思路的自然延伸。

5. ACON/SUPO/Meta-Harness 三篇构成完整图景

ACON（微软）：优化压缩提示词（推理时）
SUPO（字节）：端到端 RL 训练摘要能力（训练时）
Meta-Harness（Stanford）：优化整个编排代码（外循环）

三个层次，三种方法，都在解决同一个大问题：怎么让 agent 在长任务中更聪明。

📊 评分

维度	评分（/10）
技术深度	9.5 — 完整框架 + 3 个 benchmark + ablation + leaderboard 排名
创新性	9.0 — "文件系统即上下文" + 10M token 诊断信息
实验质量	9.5 — 跨任务类型、跨模型泛化、与 leaderboard 对比
实用性	8.0 — 需要大量 Claude Code 调用，成本高
与我们的相关度	8.0 — 我们的 skill/workflow 都可以用这种方法迭代优化
综合	9.0

报告由深度研究助手自动生成 | 2026-03-31

来源: yoonholee.com/meta-harness / 论文 / x.com

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）