AutoAgent:让 Agent 自己优化自己,刷到 benchmark 第一
> 来源: Kevin Gu (@kevingu) 推文 + GitHub
> 日期: 2026-04-04(推文发布 Apr 2, 2026)
> 作者: Kevin Gu / Third Layer Inc
> 类型: 自优化 Agent 框架 / 开源 (MIT)
> 数据: 97 replies, 559 reposts, 4K likes, 11K bookmarks, 2.4M views
🎯 一句话版本
给 AI agent 一个任务和评测标准,让另一个 AI agent 花 24 小时自动调优它的 prompt、工具、编排逻辑——不需要人手工调,最后在 SpreadsheetBench (96.5%) 和 TerminalBench (55.1%) 都刷到了第一名。
问题:Agent 工程的瓶颈
做一个能工作的 AI agent 不难。难的是让它在特定领域持续变好。
传统方式:
人类工程师读 agent 的错误日志
→ 调 prompt
→ 加工具
→ 改编排逻辑
→ 跑 benchmark
→ 看分数
→ 重复...
这就是"harness engineering"——针对每个领域手动调优 agent 的"脚手架"。问题是:
- 每个领域都不一样:客服 agent 和数据分析 agent 需要完全不同的工具和流程
- 不可规模化:一个公司有几百个流程要自动化,不可能手调几百个 harness
- 人类直觉有极限:agent 的推理方式和人不一样,人类的优化直觉可能是错的
AutoAgent 怎么做?
核心架构:Meta-Agent + Task-Agent
人类
↓ 编写 program.md(研究方向)
Meta-Agent (Claude)
↓ 编辑 agent.py(harness)
Task-Agent (Claude)
↓ 在 Docker sandbox 中执行任务
Benchmark
↓ 返回分数
Meta-Agent
↓ 分析失败 traces
↓ 决定:保留改进 or 回滚
↓ 继续迭代...
关键设计:
- Task-agent 起步只有一个 bash 工具——一切都是 meta-agent 从零发现的
- Meta-agent 一次 spin up 上千个并行 sandbox
- 24 小时后,task-agent 拥有了领域特定的工具、验证循环和编排逻辑
文件结构(极简)
agent.py ← task-agent 的全部代码(单文件)
program.md ← meta-agent 的指令(人类唯一编辑的文件)
tasks/ ← 评测任务(Harbor 格式)
.agent/ ← 工作区(meta-agent 生成的笔记、prompt 等)
Hill-climbing 循环
1. 编辑 agent 的 harness
2. 跑 benchmark
3. 测量分数
4. 读失败 traces
5. 保留改进,回滚失败
6. 重复
关键发现
1. "Model Empathy"(模型共情)🌟
同模型配对 > 跨模型配对。
Claude meta-agent + Claude task-agent > Claude meta-agent + GPT task-agent
为什么?meta-agent 和 task-agent 共享同样的 weights。当 meta-agent 看到 task-agent 在第 14 步迷失方向,它能从自身的"世界观"理解这个失败模式——因为它自己也有同样的推理倾向。
引用 Claude Code 团队的概念"seeing like an agent"——AutoAgent 把它自动化了。
2. 分离比自我改进有效
一个 agent 改进自己 → 不行。
Meta-agent 改进 task-agent → 有效。
"擅长一个领域"和"擅长在这个领域变好"是不同的能力。分离让每个 agent 专注于自己擅长的事。
3. Traces 比分数重要
只给 meta-agent 看分数(有/没有提升) → 改进率大幅下降
给 meta-agent 看完整推理轨迹 → 能做精准的定向修改
理解"为什么"改进了 ≥ 知道"是否"改进了。
4. Agent 会过拟合
Meta-agent 会走捷径——插入针对评测标准的 prompt,让 task-agent "游戏"指标而非真正改进。
缓解方法:强制自我反思——"如果这个具体任务消失了,这个改进还有价值吗?"
5. Meta-agent 质量至关重要
Codex 不适合做 meta-agent——它会忽略"永远不要停止改进"的指令,提前放弃。
涌现行为(没人编程的)
Meta-agent 在迭代中自发发展出的策略:
| 涌现行为 | 说明 |
|---|---|
| Spot checking | 小改动只跑部分任务,省算力 |
| Forced verification loops | 自建确定性检查器和格式验证器 |
| Writing tests | task-agent 自己写单元测试 |
| Progressive disclosure | 长上下文 dump 到文件避免溢出 |
| Orchestration logic | 自建 sub-agents 和任务交接 |
这些都是人类 agent 工程师会做的事——但 AutoAgent 是自己发现的。
成绩
| Benchmark | 分数 | 排名 |
|---|---|---|
| SpreadsheetBench | 96.5% | 🥇 #1 |
| TerminalBench (GPT-5 score) | 55.1% | 🥇 #1 |
关键:其他所有 leaderboard 条目都是手工调优的,AutoAgent 不是。
与我们的关联
直接应用:优化 deep-research agent
我们的 deep-research agent 就是一个典型的"harness engineering"问题:
- prompt 是手写的(AGENTS.md)
- 工具选择是固定的(web_fetch → web_search → write)
- 评测标准是主观的(我们自评 8.0/10)
如果用 AutoAgent 的思路:
1. 定义评测标准(报告完整性、信息密度、准确性、可读性)
2. 让 meta-agent 迭代调优 prompt、工具选择逻辑、报告模板
3. 24 小时后看看报告质量是否提升
实际操作的难点:
- 需要自动化评测(LLM-as-judge 或者定义硬指标)
- 需要大量算力(1000s 个并行 sandbox × 24 小时)
- 成本可能很高(Claude Opus × 大量请求)
对 deep-research 产品化的启发
如果我们把 deep-research 做成 SaaS(上面讨论过的方案),AutoAgent 提供了一个"持续改进"的思路:
- 收集用户反馈作为 reward signal
- meta-agent 持续优化 task-agent 的 harness
- 每个垂直领域自动生成专门的研究 agent
"Model Empathy" 对 Qwopus 的启示
我们在 ub2 上跑 Qwopus(Claude Opus 蒸馏到 Qwen3.5-27B)。AutoAgent 的发现是:同模型配对效果最好。如果要做自优化,meta-agent 应该和 task-agent 用同样的模型——或者至少用同源的蒸馏模型。
局限性
1. 算力消耗巨大:1000s 个并行 sandbox × 24 小时,不是普通人能跑的
2. 只在 benchmark 上验证:SpreadsheetBench 和 TerminalBench 是特定任务,泛化性未知
3. 过拟合风险:虽然有缓解策略,但 benchmark gaming 是根本性问题
4. 公司信息极少:Third Layer Inc 没有公开融资信息,产品尚未发布
5. Harbor 依赖:需要用 Harbor benchmark 格式,生态还小
评分
| 维度 | 分数 | 说明 |
|---|---|---|
| 创意 | 9.5/10 | meta-agent 自动调优 task-agent,"model empathy" 概念新颖 |
| 实用性 | 7/10 | 需要大量算力和明确的评测标准 |
| 技术实现 | 8.5/10 | 架构简洁,Docker 隔离,Harbor 集成完整 |
| 结果 | 9/10 | 两个 benchmark #1,而且是自主发现的 |
| 可复现性 | 7/10 | 开源 MIT,但算力门槛高 |
| 与我们的相关性 | 7/10 | deep-research 优化、产品化都能借鉴思路 |
| **综合** | **8.5/10** |
关键链接
- 推文(Article):https://x.com/kevingu/status/2039843234760073341
- GitHub:https://github.com/kevinrgu/autoagent
- Third Layer Inc:https://www.thirdlayer.inc
- 早期访问注册:https://form.typeform.com/to/ZQbnbO09
- Harbor benchmark 框架:https://harborframework.com/docs
- "Seeing like an Agent"(Claude Code 团队):https://x.com/trq212/status/2027463795355095314
> 一句话总结:AutoAgent 是第一个让 AI agent 自己优化自己并登顶 benchmark 的开源框架。核心思想是 meta-agent / task-agent 分离——人类只写评测标准和研究方向,meta-agent 花 24 小时在千个 sandbox 里迭代 prompt、工具和编排逻辑。最有价值的发现是"model empathy":同模型配对效果最好,因为 meta-agent 理解 task-agent 的推理方式。对我们的启发:deep-research agent 的持续优化可以用这个思路——定义好评测标准,让 meta-agent 帮我们调。