Browser Use 深度研究:YC 明星项目,让 AI Agent 像人一样上网
> GitHub: browser-use/browser-use
> 官网: browser-use.com
> 云服务: cloud.browser-use.com
> 创始人: Gregor Zunic & Magnus Müller(ETH Zurich)
> 融资: $17M Seed(Felicis Ventures 领投,YC、Paul Graham 参投)
> License: MIT
> 研究时间: 2026-03-24
🎯 一句话版本
给 AI Agent 一个浏览器,让它像人一样上网——搜索、点击、填表、买东西、投简历。ETH 两个学生做的,YC W25,Paul Graham 亲自投了 $17M,还训了自己的浏览器专用模型(比 GPT-5/Claude 快 3-5 倍)。开源 + 云服务双模式。
📅 发展历程
| 时间 | 里程碑 |
|---|---|
| **2024 夏** | Magnus 上一个创业项目(交通灯优化 GreenWAI)失败,在 ETH Student Project House (SPH) 重新开始 |
| **2024 秋** | Magnus 联系 Gregor Zunic(刚离开前一个创业项目),两人在 SPH 碰面 |
| **2024 秋** | 核心灵感:"为什么我不能告诉电脑我想做什么,让它自己去点?"——5 天做出原型 |
| **2024-11** | 推上 Hacker News,意外爆火。"人们被 AI 自动点击浏览器迷住了" |
| **2024-12-15** | 发布 WebVoyager 基准技术报告,89.1% 成功率(SOTA) |
| **2025-01** | 申请 YC。Jared 面试后三周没回复,Magnus 每周推新更新催。在阿曼沙漠找 WiFi 做了二面 |
| **2025-03-22** | 宣布 [$17M Seed 融资](https://browser-use.com/posts/seed-round)(Felicis + YC + Paul Graham)。Demo Day 前就有 $4M uncapped SAFEs,140 场投资人会议 |
| **2025-08-20** | [抛弃 Playwright,切换到原生 CDP](https://browser-use.com/posts/playwright-to-cdp)(Chrome DevTools Protocol) |
| **2025-09-30** | 推出 Stealth Infrastructure(反反爬虫) |
| **2025-10** | 发布 LLM Gateway,延迟降低 6 倍,Agent 可达 20 步/分钟 |
| **2025-11-12** | 一周年:已成为最大的开源浏览器 Agent 框架 |
| **2026-01** | 发布 [The Bitter Lesson of Agent Frameworks](https://browser-use.com/posts/bitter-lesson-agent-frameworks):"所有价值在 RL 过的模型里,不在你的 10,000 行抽象里" |
| **2026-02** | 发布开源 benchmark(100 个真实任务)+ 模型对比报告 |
| **2026-03** | **CLI 2.0**:基于 CDP,~50ms 延迟,后台 daemon 常驻。79k+ GitHub Stars |
关键转折点
从 Playwright 到 CDP(2025-08)是架构级转折。Playwright 是浏览器自动化的行业标准,但 Browser Use 认为它太慢、太抽象。直接用 Chrome DevTools Protocol 后:
- 命令延迟从 ~200ms 降到 ~50ms
- 支持连接已运行的 Chrome(带登录状态/Cookie/扩展)
- 支持 FUSE 式多会话管理
"The Bitter Lesson"(2026-01)是技术路线宣言:别堆框架代码,训专用模型才是正道。所以他们训了 ChatBrowserUse 和开源的 bu-30b-a3b-preview。
🧠 它是什么?
Browser Use 是一个 AI Agent 浏览器自动化框架。不是 Selenium/Playwright 那种写脚本的自动化,而是:
> 你告诉 Agent "帮我在 Amazon 上买最便宜的有机咖啡",它自己打开浏览器、搜索、比价、加购物车。
核心区别:
| 传统自动化 (Selenium/Playwright) | Browser Use | |
|---|---|---|
| 驱动方式 | 人写脚本 | **LLM 决策** |
| 适应性 | 页面变了就挂 | **自动适应新布局** |
| 复杂任务 | 需要大量 if/else | **自然语言描述即可** |
| CAPTCHA | 基本无解 | **Cloud 版自动处理** |
🏗️ 架构
三种使用模式
┌──────────────────────────────────────────────────┐
│ Browser Use │
├──────────────┬────────────────┬───────────────────┤
│ 开源库 │ Cloud API │ CLI │
│ (自托管) │ (推荐) │ (交互式) │
│ │ │ │
│ 自选 LLM │ ChatBrowserUse │ browser-use open │
│ 本地浏览器 │ 隐身浏览器 │ browser-use click │
│ 完全控制 │ proxy+CAPTCHA │ browser-use type │
└──────────────┴────────────────┴───────────────────┘
极简代码
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio
async def main():
agent = Agent(
task="帮我找到 browser-use 的 GitHub Star 数",
llm=ChatBrowserUse(),
browser=Browser(),
)
await agent.run()
asyncio.run(main())
6 行代码,Agent 就能上网干活了。
🤖 自有模型:ChatBrowserUse
Browser Use 不只是框架,还训了专门的浏览器自动化模型:
| 特性 | 说明 |
|---|---|
| 速度 | 比通用模型快 **3-5 倍** |
| 准确率 | 浏览器任务 **SOTA** |
| 定价 | $0.20/1M input, $2.00/1M output |
| 缓存 | $0.02/1M cached input |
还有开源预览版:bu-30b-a3b-preview(基于 Qwen3-VL-30B-A3B 微调),可以用 vLLM 本地部署。
支持的 LLM
# 自有模型(推荐)
ChatBrowserUse()
# 或者用其他模型
ChatGoogle(model='gemini-3-flash-preview')
ChatAnthropic(model='claude-sonnet-4-6')
# 或者本地 Ollama
🔧 CLI 2.0:命令行直接操控浏览器
最新版 CLI 2.0 基于 CDP(不再用 Playwright),后台 daemon 常驻,~50ms 命令延迟:
browser-use open https://example.com # 打开 URL
browser-use state # 查看可点击元素(返回索引列表)
browser-use click 5 # 按索引点击
browser-use input 3 "hello@test.com" # 填表
browser-use type "Hello World" # 输入文字
browser-use screenshot page.png # 截图
browser-use upload 4 ./resume.pdf # 上传文件
browser-use select 3 "United States" # 下拉选择
browser-use eval "document.title" # 执行 JS
browser-use close # 关闭
浏览器模式
| 模式 | 命令 | 说明 |
|---|---|---|
| Headless | `browser-use open | 默认,无界面 |
| Headed | `browser-use --headed open | 可见窗口(调试用) |
| **Real Chrome** | `browser-use --profile "Default" open | **复用你的 Chrome 登录/Cookie/扩展** |
| Connect | `browser-use --connect open | 自动发现并连接运行中的 Chrome |
| Cloud | `browser-use cloud connect` | 隐身云浏览器 |
多会话 + 数据提取
browser-use -s work open https://work.example.com # 命名会话
browser-use -s personal open https://gmail.com
browser-use sessions # 列出所有
browser-use get html --selector "table" # 提取 HTML
browser-use get text 5 # 元素文本
browser-use python "items = browser.html" # 持久 Python 会话
☁️ Cloud vs 开源
| 开源(自托管) | Cloud(推荐) | |
|---|---|---|
| 适用 | 需要自定义工具、深度集成 | 快速启动、大规模部署 |
| 浏览器 | 本地 Chromium | **隐身浏览器 + proxy rotation** |
| CAPTCHA | ❌ 基本无解 | ✅ 自动解决 |
| 集成 | 手动 | **1000+ 集成**(Gmail, Slack, Notion...) |
| 记忆 | 无 | **持久文件系统和记忆** |
| 扩展性 | 受限于本地资源 | **自动扩展** |
📊 Benchmark
Browser Use 有自己的开源 benchmark:browser-use/benchmark
- 100 个真实浏览器任务
- Cloud Agent 在复杂任务上表现显著优于开源版
🔌 自定义工具
from browser_use import Tools
tools = Tools()
@tools.action(description='在数据库中查找用户信息')
def lookup_user(email: str) -> str:
return f"用户: {email}, 状态: 活跃"
agent = Agent(
task="查找 john@example.com 的信息",
llm=llm,
browser=browser,
tools=tools,
)
Agent 可以同时操控浏览器 + 调用自定义工具。
👥 团队 & 融资
| **创始人** | Gregor Zunic & Magnus Müller |
|---|---|
| **背景** | ETH Zurich Student Project House |
| **加速器** | Y Combinator W25 |
| **融资** | $17M Seed |
| **领投** | Felicis Ventures |
| **参投** | A Capital, Nexus Ventures, YC, **Paul Graham** |
| **总部** | Zurich + San Francisco |
从 ETH 学生项目到 $17M 融资,launch 当天 GitHub trending #1。
🆚 竞品对比
| Browser Use | OpenAI Operator | Skyvern | Stagehand | |
|---|---|---|---|---|
| 开源 | ✅ MIT | ❌ | ✅ | ✅ |
| 自有模型 | ✅ ChatBrowserUse | ✅ GPT-based | ❌ | ❌ |
| 云服务 | ✅ | ✅ | ✅ | ❌ |
| 隐身浏览器 | ✅ Cloud | ✅ | ✅ | ❌ |
| 自定义工具 | ✅ | ❌ | ❌ | ❌ |
| CLI | ✅ | ❌ | ❌ | ❌ |
| 融资 | $17M | N/A | **$40M** ($300M 估值) | — |
Browser Use 的优势:开源 + 自有模型 + 云服务 + CLI + 自定义工具,全栈最完整。
🎯 应用场景
已验证的场景(官方示例 + 客户案例)
| 场景 | 说明 | 来源 |
|---|---|---|
| **求职自动化** | 自动浏览招聘网站、填写申请表、上传简历 | [示例代码](https://github.com/browser-use/browser-use/blob/main/examples/use-cases/apply_to_job.py) |
| **电商购物** | 自动搜索商品、比价、加购物车 | [示例代码](https://github.com/browser-use/browser-use/blob/main/examples/use-cases/buy_groceries.py) |
| **硬件选配** | PCPartPicker 自动组装方案 | [示例代码](https://github.com/browser-use/browser-use/blob/main/examples/use-cases/pcpartpicker.py) |
| **Agent 友好度评分** | New Generation 用 BU 给电商网站打"Agent 可操作性"分 | [客户案例](https://browser-use.com/posts/new-generation) |
| **产品 Onboarding** | Frigade 用 BU 构建 AI 引导式产品新手流程 | [客户案例](https://browser-use.com/posts/frigade) |
| **Web 搜索引擎** | Parallel AI 用 BU 构建下一代 Web 搜索 | [客户案例](https://browser-use.com/posts/parallel) |
| **表单填写** | 自动填写复杂表单、处理多步骤流程 | CLI FAQ |
| **安全测试** | 渗透测试/QA 测试 | CLI FAQ |
🧪 能做前端自动测试吗?
可以,而且是 Browser Use 非常适合的场景。 对比传统方案:
| 传统 E2E 测试 (Cypress/Playwright) | Browser Use | |
|---|---|---|
| 测试编写 | 手写选择器 + 断言 | **自然语言描述** |
| 维护成本 | 页面改了选择器就挂 | **LLM 自适应新布局** |
| 覆盖范围 | 只测预设路径 | **可探索式测试** |
| 速度 | 毫秒级 | 秒级(每步需要 LLM 推理) |
| 确定性 | ✅ 100% 确定 | ❌ LLM 有概率性 |
| CI/CD | 原生集成 | 需要额外封装 |
适合的测试类型:
1. 探索式测试 / Smoke Test:
`python
agent = Agent(
task="以新用户身份注册,填写所有必填字段,验证注册成功后能看到 Dashboard",
llm=ChatBrowserUse(),
browser=Browser(),
)
`
不需要写一行选择器,页面改版也不用维护。
2. 跨浏览器视觉回归:
`bash
browser-use open https://staging.myapp.com
browser-use screenshot before.png
# 部署新版本后
browser-use screenshot after.png
`
3. 用户流程端到端验证:
Agent 自动走完"注册→登录→创建项目→邀请成员→删除项目"全流程。
4. QA + 渗透测试(CLI FAQ 明确提到这是热门场景)
不适合的测试类型:
- 单元测试 / 组件测试:太重了,用 Jest/Vitest
- 性能基准测试:LLM 推理延迟不可控
- 需要 100% 确定性的回归测试:LLM 有小概率行为不一致
结论:Browser Use 不是替代 Cypress/Playwright,而是补充——传统工具做确定性回归,Browser Use 做探索式 / 烟雾 / 可用性测试。最大优势是零维护——页面改了不用改测试。
💡 与我们的关联
1. OpenClaw 已有浏览器能力
OpenClaw 内置 browser tool(Playwright 驱动),可以 snapshot/screenshot/act。Browser Use 解决的是不同层面的问题:
| OpenClaw browser tool | Browser Use | |
|---|---|---|
| 定位 | 辅助工具 | **独立 Agent 框架** |
| 决策 | Claude/GPT 通用模型 | **浏览器专用模型** |
| 隐身 | ❌ | ✅ Cloud |
| 并行 | 受限 | ✅ 云端自动扩展 |
2. 可能的集成方式
- 把 Browser Use 作为 OpenClaw 的外部浏览器 Agent
- 复杂的网页操作(填表、购物、申请)交给 Browser Use
- 简单的网页抓取继续用 OpenClaw 内置 browser/web_fetch
3. 自有模型的启示
Browser Use 训了浏览器专用模型(bu-30b-a3b-preview),比通用模型快 3-5 倍。这说明:
> 垂直任务 + 专用模型 > 通用大模型
这和我们在 ub2 上测试 Qwopus(Opus 蒸馏到 Qwen3.5-27B)的思路一致。
4. 开源预览模型可以本地跑
bu-30b-a3b-preview 基于 Qwen3-VL-30B-A3B 微调,ub2 的 RTX 4090 跑得动(MoE 30B/3B 激活)。可以作为本地浏览器 Agent 方案。
5. 短期不需要
我们的深度研究场景主要是 web_fetch + web_search,不需要复杂的浏览器交互。但如果未来需要自动化网页操作(比如监控价格、自动发帖、填表),Browser Use 是首选。
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 技术方案 | 9.0 — 开源框架 + 自有专用模型 + 云服务,全栈完整 |
| 社区热度 | 9.5 — GitHub trending #1,YC W25,Paul Graham 投资 |
| 易用性 | 9.0 — 6 行代码启动,CLI 交互式,模板生成 |
| 商业模式 | 8.5 — 开源引流 + 云服务变现,经典 open-core |
| 与我们的适配度 | 6.5 — 当前不需要,但未来浏览器自动化的首选方案 |
| **综合** | **8.5** |
报告由深度研究助手自动生成 | 2026-03-24
来源: GitHub