Tobi Lütke 用 Autoresearch 一夜睡出 +19% 模型提升

> 来源: https://x.com/tobi/status/2030771823151853938

> 作者: Tobi Lütke(@tobi)— Shopify CEO

> 引用: Karpathy 的 autoresearch 项目

> 互动: 71.8 万查看 · 4,556 喜欢 · 4,439 书签 · 270 转帖

> 日期: 2026-03-09

📌 一句话总结

Shopify CEO Tobi Lütke 睡前把 Karpathy 的 autoresearch 框架适配到自己的 QMD(本地文档搜索引擎)项目上,让 AI Agent 通宵跑了 37 个实验。醒来发现:0.8B 小模型的分数超过了之前的 1.6B 模型,提升了 19%

🎯 发生了什么

Tobi 的操作流程


睡前:
1. 用 Claude/Codex 创建 qmdresearcher 目录
2. 让 Agent 读 Karpathy 的 autoresearch repo
3. 指示:为 QMD 的 query-expansion 模型做一个版本
   目标:最高质量分数 + 最快速度
   训练数据来源:tobi/qmd GitHub

8 小时后醒来:
→ 37 个实验已完成
→ 0.8B 模型得分比之前 1.6B 模型高 19%
→ Agent 自己做了 reranker,基线已超过旧版本

Tobi 的原话

> "OK this thing is totally insane."

>

> "I'm not a ML researcher of course. I'm sure way more sophisticated stuff is being done by real researchers. But its mesmerizing to just read it reasoning its way through the experiments. I learned more from that than months of following ml researchers."

📦 背景:两个关键项目

Autoresearch(Karpathy)

我们之前写过报告。核心设计:

QMD(Tobi)

Tobi 自己做的开源项目:本地 CLI 文档搜索引擎

💡 深度分析

为什么这条推文炸了(71.8 万查看)

1. 身份权重:不是随便一个开发者,是 Shopify CEO——一家市值 1000 亿美元公司的掌舵人,亲自跑 ML 实验

2. 反直觉结果:小模型(0.8B)超过大模型(1.6B)——说明 Agent 找到了更优的架构/超参数组合

3. 极度简单的操作:睡前下达指令 → 睡一觉 → 起来收结果。这是真正的"sleep-to-earn"

4. 学习效率:Tobi 说"从看 Agent 推理的过程中学到的,比几个月关注 ML 研究者学到的还多"

0.8B 超过 1.6B 意味着什么

这不是 Agent "碰巧"跑出了一个好结果。37 个实验是有目的的探索

关键洞察:模型大小不等于模型质量。在特定任务(query expansion)上,精心调优的小模型可以碾压粗糙的大模型。这对资源有限的团队(包括我们)有直接启示。

Autoresearch 的真实价值验证

Karpathy 发布 autoresearch 时,很多人觉得是"玩具"——毕竟只是在 nanochat 上跑。Tobi 的案例证明:

1. 可迁移:框架可以适配到完全不同的任务(文档搜索 query expansion)

2. 有实用价值:不是在 benchmark 上刷分,而是提升了真实产品的性能

3. 门槛极低:Shopify CEO 不是 ML 研究员,但他一个人一晚上就搞定了

对"AI Agent 做研究"趋势的确认

这条推文和 Karpathy 的 autoresearch 一起,确认了一个趋势:


2024: Agent 帮你写代码
2025: Agent 帮你调参数
2026: Agent 帮你做研究(自主实验 → 分析结果 → 迭代改进)
202X: Agent 做你不理解的研究

Karpathy 的开场白不是开玩笑:

> "Research is now entirely the domain of autonomous swarms of AI agents... The 'code' is now a self-modifying binary that has grown beyond human comprehension."

🔗 与我们的关联

直接关联

1. 我们已有 autoresearch 报告:这是对那份报告的实战验证。之前我们分析了 autoresearch 的理论价值,现在 Shopify CEO 用实际结果证明了它

2. 搜索质量优化:QMD 的 query-expansion 模型和我们可能用到的搜索/RAG 场景直接相关

3. 小模型策略:0.8B 超过 1.6B 的结果支持了"在特定任务上用精调小模型"的策略

行动启发

1. 可以尝试:拿我们自己的任务(比如文档搜索、代码补全)套用 autoresearch 框架

2. 睡前跑实验:只需要一张 GPU + autoresearch + 一个目标任务

3. 关注 QMD:Tobi 的本地文档搜索引擎值得单独研究

📊 评分

维度评分(/10)
信息价值9.0 — CEO 亲自验证的真实案例
技术深度7.0 — 推文本身偏经验分享
可行性/启发性9.5 — 极度可操作,sleep-to-earn
社区影响力9.5 — 71.8 万查看,顶流传播
与我们的相关性8.5 — 搜索优化 + 小模型策略
**综合****8.7**

报告由深度研究助手自动生成 | 2026-03-10

来源: https://x.com/tobi/status/2030771823151853938

相关报告: Karpathy Autoresearch 深度分析