Tobi Lütke 用 Autoresearch 一夜睡出 +19% 模型提升
> 来源: https://x.com/tobi/status/2030771823151853938
> 作者: Tobi Lütke(@tobi)— Shopify CEO
> 引用: Karpathy 的 autoresearch 项目
> 互动: 71.8 万查看 · 4,556 喜欢 · 4,439 书签 · 270 转帖
> 日期: 2026-03-09
📌 一句话总结
Shopify CEO Tobi Lütke 睡前把 Karpathy 的 autoresearch 框架适配到自己的 QMD(本地文档搜索引擎)项目上,让 AI Agent 通宵跑了 37 个实验。醒来发现:0.8B 小模型的分数超过了之前的 1.6B 模型,提升了 19%。
🎯 发生了什么
Tobi 的操作流程
睡前:
1. 用 Claude/Codex 创建 qmdresearcher 目录
2. 让 Agent 读 Karpathy 的 autoresearch repo
3. 指示:为 QMD 的 query-expansion 模型做一个版本
目标:最高质量分数 + 最快速度
训练数据来源:tobi/qmd GitHub
8 小时后醒来:
→ 37 个实验已完成
→ 0.8B 模型得分比之前 1.6B 模型高 19%
→ Agent 自己做了 reranker,基线已超过旧版本
Tobi 的原话
> "OK this thing is totally insane."
>
> "I'm not a ML researcher of course. I'm sure way more sophisticated stuff is being done by real researchers. But its mesmerizing to just read it reasoning its way through the experiments. I learned more from that than months of following ml researchers."
📦 背景:两个关键项目
Autoresearch(Karpathy)
我们之前写过报告。核心设计:
- train.py:~630 行,单 GPU,完整 GPT 训练
- program.md:Agent 的"研究指南"
- 固定 5 分钟时间预算:每个实验恒定时间,结果可比
- Agent 自主修改代码 → 训练 → 评估 → 保留/丢弃 → 循环
QMD(Tobi)
Tobi 自己做的开源项目:本地 CLI 文档搜索引擎
- GitHub: https://github.com/tobi/qmd
- 功能:搜索本地文档、知识库、会议笔记
- 特点:全部本地运行,追踪 SOTA 方法
- 在 Shopify 内部广泛使用,已集成到代码 monorepo 的文档搜索中
- query-expansion model:查询扩展模型,用于改善搜索质量
💡 深度分析
为什么这条推文炸了(71.8 万查看)
1. 身份权重:不是随便一个开发者,是 Shopify CEO——一家市值 1000 亿美元公司的掌舵人,亲自跑 ML 实验
2. 反直觉结果:小模型(0.8B)超过大模型(1.6B)——说明 Agent 找到了更优的架构/超参数组合
3. 极度简单的操作:睡前下达指令 → 睡一觉 → 起来收结果。这是真正的"sleep-to-earn"
4. 学习效率:Tobi 说"从看 Agent 推理的过程中学到的,比几个月关注 ML 研究者学到的还多"
0.8B 超过 1.6B 意味着什么
这不是 Agent "碰巧"跑出了一个好结果。37 个实验是有目的的探索:
- Agent 可能发现了更高效的注意力模式
- 可能优化了 tokenizer/词表大小
- 可能找到了更好的学习率 schedule
- 可能尝试了不同的窗口模式(如 Karpathy 代码里的 SSSL vs L)
关键洞察:模型大小不等于模型质量。在特定任务(query expansion)上,精心调优的小模型可以碾压粗糙的大模型。这对资源有限的团队(包括我们)有直接启示。
Autoresearch 的真实价值验证
Karpathy 发布 autoresearch 时,很多人觉得是"玩具"——毕竟只是在 nanochat 上跑。Tobi 的案例证明:
1. 可迁移:框架可以适配到完全不同的任务(文档搜索 query expansion)
2. 有实用价值:不是在 benchmark 上刷分,而是提升了真实产品的性能
3. 门槛极低:Shopify CEO 不是 ML 研究员,但他一个人一晚上就搞定了
对"AI Agent 做研究"趋势的确认
这条推文和 Karpathy 的 autoresearch 一起,确认了一个趋势:
2024: Agent 帮你写代码
2025: Agent 帮你调参数
2026: Agent 帮你做研究(自主实验 → 分析结果 → 迭代改进)
202X: Agent 做你不理解的研究
Karpathy 的开场白不是开玩笑:
> "Research is now entirely the domain of autonomous swarms of AI agents... The 'code' is now a self-modifying binary that has grown beyond human comprehension."
🔗 与我们的关联
直接关联
1. 我们已有 autoresearch 报告:这是对那份报告的实战验证。之前我们分析了 autoresearch 的理论价值,现在 Shopify CEO 用实际结果证明了它
2. 搜索质量优化:QMD 的 query-expansion 模型和我们可能用到的搜索/RAG 场景直接相关
3. 小模型策略:0.8B 超过 1.6B 的结果支持了"在特定任务上用精调小模型"的策略
行动启发
1. 可以尝试:拿我们自己的任务(比如文档搜索、代码补全)套用 autoresearch 框架
2. 睡前跑实验:只需要一张 GPU + autoresearch + 一个目标任务
3. 关注 QMD:Tobi 的本地文档搜索引擎值得单独研究
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 信息价值 | 9.0 — CEO 亲自验证的真实案例 |
| 技术深度 | 7.0 — 推文本身偏经验分享 |
| 可行性/启发性 | 9.5 — 极度可操作,sleep-to-earn |
| 社区影响力 | 9.5 — 71.8 万查看,顶流传播 |
| 与我们的相关性 | 8.5 — 搜索优化 + 小模型策略 |
| **综合** | **8.7** |
报告由深度研究助手自动生成 | 2026-03-10
来源: https://x.com/tobi/status/2030771823151853938