AutoAgent：让 Agent 自己优化自己，刷到 benchmark 第一

> 日期: 2026-04-04（推文发布 Apr 2, 2026）

> 作者: Kevin Gu / Third Layer Inc

> 类型: 自优化 Agent 框架 / 开源 (MIT)

> 数据: 97 replies, 559 reposts, 4K likes, 11K bookmarks, 2.4M views

🎯 一句话版本

给 AI agent 一个任务和评测标准，让另一个 AI agent 花 24 小时自动调优它的 prompt、工具、编排逻辑——不需要人手工调，最后在 SpreadsheetBench (96.5%) 和 TerminalBench (55.1%) 都刷到了第一名。

问题：Agent 工程的瓶颈

做一个能工作的 AI agent 不难。难的是让它在特定领域持续变好。

传统方式：


人类工程师读 agent 的错误日志
  → 调 prompt
  → 加工具
  → 改编排逻辑
  → 跑 benchmark
  → 看分数
  → 重复...

这就是"harness engineering"——针对每个领域手动调优 agent 的"脚手架"。问题是：

每个领域都不一样：客服 agent 和数据分析 agent 需要完全不同的工具和流程
不可规模化：一个公司有几百个流程要自动化，不可能手调几百个 harness
人类直觉有极限：agent 的推理方式和人不一样，人类的优化直觉可能是错的

AutoAgent 怎么做？

核心架构：Meta-Agent + Task-Agent


人类
  ↓ 编写 program.md（研究方向）
Meta-Agent (Claude)
  ↓ 编辑 agent.py（harness）
Task-Agent (Claude)
  ↓ 在 Docker sandbox 中执行任务
Benchmark
  ↓ 返回分数
Meta-Agent
  ↓ 分析失败 traces
  ↓ 决定：保留改进 or 回滚
  ↓ 继续迭代...

关键设计：

Task-agent 起步只有一个 bash 工具——一切都是 meta-agent 从零发现的
Meta-agent 一次 spin up 上千个并行 sandbox
24 小时后，task-agent 拥有了领域特定的工具、验证循环和编排逻辑

文件结构（极简）


agent.py     ← task-agent 的全部代码（单文件）
program.md   ← meta-agent 的指令（人类唯一编辑的文件）
tasks/       ← 评测任务（Harbor 格式）
.agent/      ← 工作区（meta-agent 生成的笔记、prompt 等）

Hill-climbing 循环


1. 编辑 agent 的 harness
2. 跑 benchmark
3. 测量分数
4. 读失败 traces
5. 保留改进，回滚失败
6. 重复

关键发现

1. "Model Empathy"（模型共情）🌟

同模型配对 > 跨模型配对。

Claude meta-agent + Claude task-agent > Claude meta-agent + GPT task-agent

为什么？meta-agent 和 task-agent 共享同样的 weights。当 meta-agent 看到 task-agent 在第 14 步迷失方向，它能从自身的"世界观"理解这个失败模式——因为它自己也有同样的推理倾向。

引用 Claude Code 团队的概念"seeing like an agent"——AutoAgent 把它自动化了。

2. 分离比自我改进有效

一个 agent 改进自己 → 不行。

Meta-agent 改进 task-agent → 有效。

"擅长一个领域"和"擅长在这个领域变好"是不同的能力。分离让每个 agent 专注于自己擅长的事。

3. Traces 比分数重要

只给 meta-agent 看分数（有/没有提升） → 改进率大幅下降

给 meta-agent 看完整推理轨迹 → 能做精准的定向修改

理解"为什么"改进了 ≥ 知道"是否"改进了。

4. Agent 会过拟合

Meta-agent 会走捷径——插入针对评测标准的 prompt，让 task-agent "游戏"指标而非真正改进。

缓解方法：强制自我反思——"如果这个具体任务消失了，这个改进还有价值吗？"

5. Meta-agent 质量至关重要

Codex 不适合做 meta-agent——它会忽略"永远不要停止改进"的指令，提前放弃。

涌现行为（没人编程的）

Meta-agent 在迭代中自发发展出的策略：

涌现行为	说明
Spot checking	小改动只跑部分任务，省算力
Forced verification loops	自建确定性检查器和格式验证器
Writing tests	task-agent 自己写单元测试
Progressive disclosure	长上下文 dump 到文件避免溢出
Orchestration logic	自建 sub-agents 和任务交接

这些都是人类 agent 工程师会做的事——但 AutoAgent 是自己发现的。

成绩

Benchmark	分数	排名
SpreadsheetBench	96.5%	🥇 #1
TerminalBench (GPT-5 score)	55.1%	🥇 #1

关键：其他所有 leaderboard 条目都是手工调优的，AutoAgent 不是。

与我们的关联

直接应用：优化 deep-research agent

我们的 deep-research agent 就是一个典型的"harness engineering"问题：

prompt 是手写的（AGENTS.md）
工具选择是固定的（web_fetch → web_search → write）
评测标准是主观的（我们自评 8.0/10）

如果用 AutoAgent 的思路：

1. 定义评测标准（报告完整性、信息密度、准确性、可读性）

2. 让 meta-agent 迭代调优 prompt、工具选择逻辑、报告模板

3. 24 小时后看看报告质量是否提升

实际操作的难点：

需要自动化评测（LLM-as-judge 或者定义硬指标）
需要大量算力（1000s 个并行 sandbox × 24 小时）
成本可能很高（Claude Opus × 大量请求）

对 deep-research 产品化的启发

如果我们把 deep-research 做成 SaaS（上面讨论过的方案），AutoAgent 提供了一个"持续改进"的思路：

收集用户反馈作为 reward signal
meta-agent 持续优化 task-agent 的 harness
每个垂直领域自动生成专门的研究 agent

"Model Empathy" 对 Qwopus 的启示

我们在 ub2 上跑 Qwopus（Claude Opus 蒸馏到 Qwen3.5-27B）。AutoAgent 的发现是：同模型配对效果最好。如果要做自优化，meta-agent 应该和 task-agent 用同样的模型——或者至少用同源的蒸馏模型。

局限性

1. 算力消耗巨大：1000s 个并行 sandbox × 24 小时，不是普通人能跑的

2. 只在 benchmark 上验证：SpreadsheetBench 和 TerminalBench 是特定任务，泛化性未知

3. 过拟合风险：虽然有缓解策略，但 benchmark gaming 是根本性问题

4. 公司信息极少：Third Layer Inc 没有公开融资信息，产品尚未发布

5. Harbor 依赖：需要用 Harbor benchmark 格式，生态还小

评分

维度	分数	说明
创意	9.5/10	meta-agent 自动调优 task-agent，"model empathy" 概念新颖
实用性	7/10	需要大量算力和明确的评测标准
技术实现	8.5/10	架构简洁，Docker 隔离，Harbor 集成完整
结果	9/10	两个 benchmark #1，而且是自主发现的
可复现性	7/10	开源 MIT，但算力门槛高
与我们的相关性	7/10	deep-research 优化、产品化都能借鉴思路
综合	8.5/10

关键链接

推文（Article）：https://x.com/kevingu/status/2039843234760073341
GitHub：https://github.com/kevinrgu/autoagent
Third Layer Inc：https://www.thirdlayer.inc
早期访问注册：https://form.typeform.com/to/ZQbnbO09
Harbor benchmark 框架：https://harborframework.com/docs
"Seeing like an Agent"（Claude Code 团队）：https://x.com/trq212/status/2027463795355095314

> 一句话总结：AutoAgent 是第一个让 AI agent 自己优化自己并登顶 benchmark 的开源框架。核心思想是 meta-agent / task-agent 分离——人类只写评测标准和研究方向，meta-agent 花 24 小时在千个 sandbox 里迭代 prompt、工具和编排逻辑。最有价值的发现是"model empathy"：同模型配对效果最好，因为 meta-agent 理解 task-agent 的推理方式。对我们的启发：deep-research agent 的持续优化可以用这个思路——定义好评测标准，让 meta-agent 帮我们调。