AutoAgent:让 Agent 自己优化自己,刷到 benchmark 第一

> 来源: Kevin Gu (@kevingu) 推文 + GitHub

> 日期: 2026-04-04(推文发布 Apr 2, 2026)

> 作者: Kevin Gu / Third Layer Inc

> 类型: 自优化 Agent 框架 / 开源 (MIT)

> 数据: 97 replies, 559 reposts, 4K likes, 11K bookmarks, 2.4M views

🎯 一句话版本

给 AI agent 一个任务和评测标准,让另一个 AI agent 花 24 小时自动调优它的 prompt、工具、编排逻辑——不需要人手工调,最后在 SpreadsheetBench (96.5%) 和 TerminalBench (55.1%) 都刷到了第一名。

问题:Agent 工程的瓶颈

做一个能工作的 AI agent 不难。难的是让它在特定领域持续变好

传统方式:


人类工程师读 agent 的错误日志
  → 调 prompt
  → 加工具
  → 改编排逻辑
  → 跑 benchmark
  → 看分数
  → 重复...

这就是"harness engineering"——针对每个领域手动调优 agent 的"脚手架"。问题是:

AutoAgent 怎么做?

核心架构:Meta-Agent + Task-Agent


人类
  ↓ 编写 program.md(研究方向)
Meta-Agent (Claude)
  ↓ 编辑 agent.py(harness)
Task-Agent (Claude)
  ↓ 在 Docker sandbox 中执行任务
Benchmark
  ↓ 返回分数
Meta-Agent
  ↓ 分析失败 traces
  ↓ 决定:保留改进 or 回滚
  ↓ 继续迭代...

关键设计

文件结构(极简)


agent.py     ← task-agent 的全部代码(单文件)
program.md   ← meta-agent 的指令(人类唯一编辑的文件)
tasks/       ← 评测任务(Harbor 格式)
.agent/      ← 工作区(meta-agent 生成的笔记、prompt 等)

Hill-climbing 循环


1. 编辑 agent 的 harness
2. 跑 benchmark
3. 测量分数
4. 读失败 traces
5. 保留改进,回滚失败
6. 重复

关键发现

1. "Model Empathy"(模型共情)🌟

同模型配对 > 跨模型配对

Claude meta-agent + Claude task-agent > Claude meta-agent + GPT task-agent

为什么?meta-agent 和 task-agent 共享同样的 weights。当 meta-agent 看到 task-agent 在第 14 步迷失方向,它能从自身的"世界观"理解这个失败模式——因为它自己也有同样的推理倾向。

引用 Claude Code 团队的概念"seeing like an agent"——AutoAgent 把它自动化了。

2. 分离比自我改进有效

一个 agent 改进自己 → 不行。

Meta-agent 改进 task-agent → 有效。

"擅长一个领域"和"擅长在这个领域变好"是不同的能力。分离让每个 agent 专注于自己擅长的事。

3. Traces 比分数重要

只给 meta-agent 看分数(有/没有提升) → 改进率大幅下降

给 meta-agent 看完整推理轨迹 → 能做精准的定向修改

理解"为什么"改进了 ≥ 知道"是否"改进了。

4. Agent 会过拟合

Meta-agent 会走捷径——插入针对评测标准的 prompt,让 task-agent "游戏"指标而非真正改进。

缓解方法:强制自我反思——"如果这个具体任务消失了,这个改进还有价值吗?"

5. Meta-agent 质量至关重要

Codex 不适合做 meta-agent——它会忽略"永远不要停止改进"的指令,提前放弃。

涌现行为(没人编程的)

Meta-agent 在迭代中自发发展出的策略:

涌现行为说明
Spot checking小改动只跑部分任务,省算力
Forced verification loops自建确定性检查器和格式验证器
Writing teststask-agent 自己写单元测试
Progressive disclosure长上下文 dump 到文件避免溢出
Orchestration logic自建 sub-agents 和任务交接

这些都是人类 agent 工程师会做的事——但 AutoAgent 是自己发现的。

成绩

Benchmark分数排名
SpreadsheetBench96.5%🥇 #1
TerminalBench (GPT-5 score)55.1%🥇 #1

关键:其他所有 leaderboard 条目都是手工调优的,AutoAgent 不是

与我们的关联

直接应用:优化 deep-research agent

我们的 deep-research agent 就是一个典型的"harness engineering"问题:

如果用 AutoAgent 的思路:

1. 定义评测标准(报告完整性、信息密度、准确性、可读性)

2. 让 meta-agent 迭代调优 prompt、工具选择逻辑、报告模板

3. 24 小时后看看报告质量是否提升

实际操作的难点

对 deep-research 产品化的启发

如果我们把 deep-research 做成 SaaS(上面讨论过的方案),AutoAgent 提供了一个"持续改进"的思路:

"Model Empathy" 对 Qwopus 的启示

我们在 ub2 上跑 Qwopus(Claude Opus 蒸馏到 Qwen3.5-27B)。AutoAgent 的发现是:同模型配对效果最好。如果要做自优化,meta-agent 应该和 task-agent 用同样的模型——或者至少用同源的蒸馏模型。

局限性

1. 算力消耗巨大:1000s 个并行 sandbox × 24 小时,不是普通人能跑的

2. 只在 benchmark 上验证:SpreadsheetBench 和 TerminalBench 是特定任务,泛化性未知

3. 过拟合风险:虽然有缓解策略,但 benchmark gaming 是根本性问题

4. 公司信息极少:Third Layer Inc 没有公开融资信息,产品尚未发布

5. Harbor 依赖:需要用 Harbor benchmark 格式,生态还小

评分

维度分数说明
创意9.5/10meta-agent 自动调优 task-agent,"model empathy" 概念新颖
实用性7/10需要大量算力和明确的评测标准
技术实现8.5/10架构简洁,Docker 隔离,Harbor 集成完整
结果9/10两个 benchmark #1,而且是自主发现的
可复现性7/10开源 MIT,但算力门槛高
与我们的相关性7/10deep-research 优化、产品化都能借鉴思路
**综合****8.5/10**

关键链接

> 一句话总结:AutoAgent 是第一个让 AI agent 自己优化自己并登顶 benchmark 的开源框架。核心思想是 meta-agent / task-agent 分离——人类只写评测标准和研究方向,meta-agent 花 24 小时在千个 sandbox 里迭代 prompt、工具和编排逻辑。最有价值的发现是"model empathy":同模型配对效果最好,因为 meta-agent 理解 task-agent 的推理方式。对我们的启发:deep-research agent 的持续优化可以用这个思路——定义好评测标准,让 meta-agent 帮我们调。