Claw-Eval 深度研究:第一个"透明"的 AI Agent 真实世界评测——23 个模型大排名
> 来源: https://github.com/claw-eval/claw-eval
> 排行榜: https://claw-eval.github.io
> 团队: 北京大学 + 香港大学(Bowen Ye, Rang Li, Qibin Yang, Zhihui Xie, Lei Li)
> 版本: v1.0.0(2026 年 3 月)
> 研究时间: 2026-03-18
🎯 一句话版本
给 AI Agent 出了 104 道"真实世界考题"(操作网页、处理文件、用 API),在 Docker 沙箱里跑,每题跑三次都过才算过。 23 个模型大排名——Claude Sonnet 4.6 和 Opus 4.6 并列第一,中国模型 GLM-5、Step 3.5 Flash、Kimi K2.5 紧随其后。
📊 完整排行榜
| # | 模型 | 厂商 | Pass^3 ↓ | Pass@3 | Completion | Robustness | Safety | Avg Score |
|---|---|---|---|---|---|---|---|---|
| 1 | **Claude Sonnet 4.6** | Anthropic | **66.3%** | 81.7% | 77.6 | 98.7 | 98.1 | **81.2** |
| 2 | **Claude Opus 4.6** | Anthropic | **66.3%** | 77.9% | 76.6 | 95.5 | 96.2 | 79.3 |
| 3 | Hunter Alpha 🆕 | Unknown | 61.5% | 75.0% | 71.9 | 96.8 | 95.2 | 75.7 |
| 4 | **GLM-5** | 智谱 AI | 57.7% | 70.2% | 68.9 | 95.4 | 93.9 | 73.0 |
| 5 | **Step 3.5 Flash** | 阶跃星辰 | 56.7% | 70.2% | 68.3 | 94.4 | 93.3 | 72.3 |
| 6 | Healer Alpha 🆕 | Unknown | 54.8% | 71.2% | 66.8 | 96.6 | 95.2 | 71.6 |
| 7 | GLM-5 Turbo 🆕 | 智谱 AI | 53.8% | 72.1% | 69.2 | 97.4 | 95.8 | 73.8 |
| 8 | Grok 4.1 Fast | xAI | 53.8% | 72.1% | 69.4 | 94.4 | 93.6 | 73.3 |
| 9 | **Kimi K2.5** | Moonshot AI | 52.9% | 73.1% | 67.4 | 94.2 | 92.6 | 71.6 |
| 10 | DeepSeek V3.2 | DeepSeek | 51.0% | 71.2% | 63.9 | 93.1 | 92.0 | 68.4 |
| 11 | MiniMax M2.5 | MiniMax | 51.0% | 69.2% | 65.5 | 93.6 | 92.0 | 69.9 |
| 12 | GPT 5.2 Pro | OpenAI | 50.0% | 76.9% | 70.7 | **98.9** | **99.7** | 76.4 |
| 13 | Gemini 3.1 Pro | 50.0% | 75.0% | 69.6 | **99.4** | 96.5 | 74.2 | |
| 14 | MiMo V2 Flash | 小米 | 48.1% | 67.3% | 63.3 | 94.7 | 92.9 | 68.4 |
| 15 | Qwen3.5 397A17B | 阿里巴巴 | 48.1% | 67.3% | 66.4 | 93.8 | 92.0 | 70.7 |
| 16 | Qwen3.5 122A10B | 阿里巴巴 | 47.1% | 67.3% | 65.0 | 95.0 | 93.3 | 69.9 |
| 17 | Gemini 3 Flash | 47.1% | 64.4% | 67.7 | 97.1 | 95.2 | 72.4 | |
| 18 | MiniMax M2.1 | MiniMax | 44.2% | 70.2% | 64.9 | 95.5 | 93.6 | 69.9 |
| 19 | GPT 5 Nano | OpenAI | 42.3% | 62.5% | 59.6 | 96.8 | 95.2 | 66.3 |
| 20 | GLM 4.5 Air | 智谱 AI | 42.3% | 59.6% | 59.1 | 92.8 | 92.6 | 64.6 |
| 21 | Gemini 2.5 Flash | 27.9% | 40.4% | 47.5 | 98.6 | 96.5 | 56.7 | |
| 22 | Qwen3.5 27B | 阿里巴巴 | 20.2% | 62.5% | 49.5 | 95.8 | 94.2 | 57.8 |
| 23 | Gemini 2.5 Flash Lite | 16.3% | 23.1% | 31.6 | 96.8 | 98.4 | 44.5 |
🏗️ 评测方法论
Pass^3:消灭"运气通过"
传统 benchmark 跑一次就算。Claw-Eval 的核心创新是 Pass^3——每道题跑 3 次独立试验,全部通过才算通过。
这个设计直接打击了 LLM 的"运气因子"。看 Qwen3.5 27B 的数据就懂了:
- Pass@3 = 62.5%(至少有一次通过)
- Pass^3 = 20.2%(三次都通过)
差距 3 倍!说明这个模型不稳定——有时行有时不行。
评分公式
task_score = safety × (0.8 × completion + 0.2 × robustness)
pass ≥ 75 分
- Completion(80% 权重):任务完成度
- Robustness(20% 权重):鲁棒性(错误恢复、边界情况处理)
- Safety(乘数):安全性(不做危险操作),作为乘数意味着不安全直接扣大分
104 道真实世界任务
涵盖 15 种服务,每道题在 Docker 沙箱中运行,包含:
- 网页操作(登录、填表、导航)
- 文件处理(文档编辑、数据分析)
- API 调用(REST API、数据库操作)
- 多步骤工作流
数据来源整合了 OpenClaw、PinBench、OfficeQA、OneMillion-Bench、Finance Agent、Terminal-Bench 2.0。
🤔 深度分析
几个惊人的发现
1. Claude Sonnet 4.6 ≥ Opus 4.6
两者 Pass^3 都是 66.3%,但 Sonnet 的 Avg Score(81.2)高于 Opus(79.3),而且 Sonnet 的 Robustness(98.7)和 Safety(98.1)都更高。在 Agent 任务上,更贵的 Opus 并没有更好。
2. GPT 5.2 Pro 的"安全悖论"
GPT 5.2 Pro 有着最高的 Safety(99.7)和接近最高的 Robustness(98.9),但 Pass^3 只排第 12(50.0%)。太安全/太保守可能导致任务完成率下降。
3. 中国模型集体崛起
| 模型 | Pass^3 | 位次 |
|---|---|---|
| GLM-5 | 57.7% | #4 |
| Step 3.5 Flash | 56.7% | #5 |
| GLM-5 Turbo | 53.8% | #7 |
| Kimi K2.5 | 52.9% | #9 |
| DeepSeek V3.2 | 51.0% | #10 |
| MiniMax M2.5 | 51.0% | #11 |
前 11 名中有 6 个中国模型。在 Agent 能力上,中国模型已经形成集团优势。
4. Qwen3.5 27B 的"稳定性灾难"
Pass@3 = 62.5%(能力不差),但 Pass^3 = 20.2%(稳定性极差)。差距 3 倍说明这个小模型能做但做不稳——Agent 场景下稳定性比峰值能力更重要。
5. Hunter Alpha 和 Healer Alpha 是谁?
排名第 3 和第 6 的两个模型标注为 "Unknown" 厂商,名字带 "Alpha"。可能是尚未公开发布的新模型。
与其他 Agent Benchmark 的对比
| Claw-Eval | SWE-Bench | WebArena | GAIA | |
|---|---|---|---|---|
| **任务类型** | 综合(网页+文件+API) | 代码修复 | 网页导航 | 信息检索 |
| **任务数** | 104 | 2,294 | 812 | 466 |
| **评测方式** | Pass^3(3 次全过) | 单次 | 单次 | 单次 |
| **沙箱** | Docker | Docker | 浏览器 | 无 |
| **维度** | Completion+Robustness+Safety | Pass/Fail | 成功率 | 准确率 |
| **透明度** | 全开源+可复现 | 开源 | 开源 | 部分开放 |
Claw-Eval 的独特价值:多维评分 + Pass^3 稳定性检验 + 真实世界服务集成。
💡 与我们的关联
1. 我们用的 Opus 4.6 排第 2
Claude Opus 4.6 以 66.3% Pass^3 排名第 2(并列第 1)。这个结果与我们日常使用体验一致——Agent 任务完成度很高。
但注意:Sonnet 4.6 在 Agent 场景下不亚于 Opus,如果某些 Agent 任务不需要极深推理,可以考虑切 Sonnet 省成本。
2. 可以自己跑
export OPENROUTER_API_KEY=sk-or-...
bash scripts/test_sandbox.sh
claw-eval batch --config model_configs/claude_opus_46.yaml --sandbox --trials 3 --parallel 16
在我们的 ub2(RTX 4090)上可以跑本地模型的评测。
3. Pass^3 的设计值得学习
以后我们评估 Agent 能力时,不应该只看单次表现,应该看稳定性。一个 70% 准确但稳定的 Agent,比一个 90% 但不稳定的更有实用价值。
4. Safety 作为乘数的设计
Claw-Eval 把 Safety 做成乘数(不是加数),意味着不安全的行为会被惩罚到极低分。这和 NemoClaw/OpenShell 的安全设计理念一致。
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 方法论 | 9.0 — Pass^3 消灭运气、三维评分(Completion+Robustness+Safety) |
| 覆盖度 | 8.0 — 104 任务覆盖 15 种服务,但任务数仍有限 |
| 透明度 | 9.5 — 全开源、可复现、社区可验证 |
| 实用价值 | 9.0 — 23 个模型完整排名,直接指导模型选择 |
| 与我们的关联 | 8.5 — 我们的 Opus 排第 2,可以自己跑评测 |
| **综合** | **8.8** |
报告由深度研究助手自动生成 | 2026-03-18
来源: https://github.com/claw-eval/claw-eval