Claw-Eval 深度研究：第一个"透明"的 AI Agent 真实世界评测——23 个模型大排名

> 来源: https://github.com/claw-eval/claw-eval

> 排行榜: https://claw-eval.github.io

> 团队: 北京大学 + 香港大学（Bowen Ye, Rang Li, Qibin Yang, Zhihui Xie, Lei Li）

> 版本: v1.0.0（2026 年 3 月）

> 研究时间: 2026-03-18

🎯 一句话版本

给 AI Agent 出了 104 道"真实世界考题"（操作网页、处理文件、用 API），在 Docker 沙箱里跑，每题跑三次都过才算过。 23 个模型大排名——Claude Sonnet 4.6 和 Opus 4.6 并列第一，中国模型 GLM-5、Step 3.5 Flash、Kimi K2.5 紧随其后。

📊 完整排行榜

#	模型	厂商	Pass^3 ↓	Pass@3	Completion	Robustness	Safety	Avg Score
1	Claude Sonnet 4.6	Anthropic	66.3%	81.7%	77.6	98.7	98.1	81.2
2	Claude Opus 4.6	Anthropic	66.3%	77.9%	76.6	95.5	96.2	79.3
3	Hunter Alpha 🆕	Unknown	61.5%	75.0%	71.9	96.8	95.2	75.7
4	GLM-5	智谱 AI	57.7%	70.2%	68.9	95.4	93.9	73.0
5	Step 3.5 Flash	阶跃星辰	56.7%	70.2%	68.3	94.4	93.3	72.3
6	Healer Alpha 🆕	Unknown	54.8%	71.2%	66.8	96.6	95.2	71.6
7	GLM-5 Turbo 🆕	智谱 AI	53.8%	72.1%	69.2	97.4	95.8	73.8
8	Grok 4.1 Fast	xAI	53.8%	72.1%	69.4	94.4	93.6	73.3
9	Kimi K2.5	Moonshot AI	52.9%	73.1%	67.4	94.2	92.6	71.6
10	DeepSeek V3.2	DeepSeek	51.0%	71.2%	63.9	93.1	92.0	68.4
11	MiniMax M2.5	MiniMax	51.0%	69.2%	65.5	93.6	92.0	69.9
12	GPT 5.2 Pro	OpenAI	50.0%	76.9%	70.7	98.9	99.7	76.4
13	Gemini 3.1 Pro	Google	50.0%	75.0%	69.6	99.4	96.5	74.2
14	MiMo V2 Flash	小米	48.1%	67.3%	63.3	94.7	92.9	68.4
15	Qwen3.5 397A17B	阿里巴巴	48.1%	67.3%	66.4	93.8	92.0	70.7
16	Qwen3.5 122A10B	阿里巴巴	47.1%	67.3%	65.0	95.0	93.3	69.9
17	Gemini 3 Flash	Google	47.1%	64.4%	67.7	97.1	95.2	72.4
18	MiniMax M2.1	MiniMax	44.2%	70.2%	64.9	95.5	93.6	69.9
19	GPT 5 Nano	OpenAI	42.3%	62.5%	59.6	96.8	95.2	66.3
20	GLM 4.5 Air	智谱 AI	42.3%	59.6%	59.1	92.8	92.6	64.6
21	Gemini 2.5 Flash	Google	27.9%	40.4%	47.5	98.6	96.5	56.7
22	Qwen3.5 27B	阿里巴巴	20.2%	62.5%	49.5	95.8	94.2	57.8
23	Gemini 2.5 Flash Lite	Google	16.3%	23.1%	31.6	96.8	98.4	44.5

🏗️ 评测方法论

Pass^3：消灭"运气通过"

传统 benchmark 跑一次就算。Claw-Eval 的核心创新是 Pass^3——每道题跑 3 次独立试验，全部通过才算通过。

这个设计直接打击了 LLM 的"运气因子"。看 Qwen3.5 27B 的数据就懂了：

Pass@3 = 62.5%（至少有一次通过）
Pass^3 = 20.2%（三次都通过）

差距 3 倍！说明这个模型不稳定——有时行有时不行。

评分公式


task_score = safety × (0.8 × completion + 0.2 × robustness)
pass ≥ 75 分

Completion（80% 权重）：任务完成度
Robustness（20% 权重）：鲁棒性（错误恢复、边界情况处理）
Safety（乘数）：安全性（不做危险操作），作为乘数意味着不安全直接扣大分

104 道真实世界任务

涵盖 15 种服务，每道题在 Docker 沙箱中运行，包含：

网页操作（登录、填表、导航）
文件处理（文档编辑、数据分析）
API 调用（REST API、数据库操作）
多步骤工作流

数据来源整合了 OpenClaw、PinBench、OfficeQA、OneMillion-Bench、Finance Agent、Terminal-Bench 2.0。

🤔 深度分析

几个惊人的发现

1. Claude Sonnet 4.6 ≥ Opus 4.6

两者 Pass^3 都是 66.3%，但 Sonnet 的 Avg Score（81.2）高于 Opus（79.3），而且 Sonnet 的 Robustness（98.7）和 Safety（98.1）都更高。在 Agent 任务上，更贵的 Opus 并没有更好。

2. GPT 5.2 Pro 的"安全悖论"

GPT 5.2 Pro 有着最高的 Safety（99.7）和接近最高的 Robustness（98.9），但 Pass^3 只排第 12（50.0%）。太安全/太保守可能导致任务完成率下降。

3. 中国模型集体崛起

模型	Pass^3	位次
GLM-5	57.7%	#4
Step 3.5 Flash	56.7%	#5
GLM-5 Turbo	53.8%	#7
Kimi K2.5	52.9%	#9
DeepSeek V3.2	51.0%	#10
MiniMax M2.5	51.0%	#11

前 11 名中有 6 个中国模型。在 Agent 能力上，中国模型已经形成集团优势。

4. Qwen3.5 27B 的"稳定性灾难"

Pass@3 = 62.5%（能力不差），但 Pass^3 = 20.2%（稳定性极差）。差距 3 倍说明这个小模型能做但做不稳——Agent 场景下稳定性比峰值能力更重要。

5. Hunter Alpha 和 Healer Alpha 是谁？

排名第 3 和第 6 的两个模型标注为 "Unknown" 厂商，名字带 "Alpha"。可能是尚未公开发布的新模型。

与其他 Agent Benchmark 的对比

	Claw-Eval	SWE-Bench	WebArena	GAIA
任务类型	综合（网页+文件+API）	代码修复	网页导航	信息检索
任务数	104	2,294	812	466
评测方式	Pass^3（3 次全过）	单次	单次	单次
沙箱	Docker	Docker	浏览器	无
维度	Completion+Robustness+Safety	Pass/Fail	成功率	准确率
透明度	全开源+可复现	开源	开源	部分开放

Claw-Eval 的独特价值：多维评分 + Pass^3 稳定性检验 + 真实世界服务集成。

💡 与我们的关联

1. 我们用的 Opus 4.6 排第 2

Claude Opus 4.6 以 66.3% Pass^3 排名第 2（并列第 1）。这个结果与我们日常使用体验一致——Agent 任务完成度很高。

但注意：Sonnet 4.6 在 Agent 场景下不亚于 Opus，如果某些 Agent 任务不需要极深推理，可以考虑切 Sonnet 省成本。

2. 可以自己跑


export OPENROUTER_API_KEY=sk-or-...
bash scripts/test_sandbox.sh
claw-eval batch --config model_configs/claude_opus_46.yaml --sandbox --trials 3 --parallel 16

在我们的 ub2（RTX 4090）上可以跑本地模型的评测。

3. Pass^3 的设计值得学习

以后我们评估 Agent 能力时，不应该只看单次表现，应该看稳定性。一个 70% 准确但稳定的 Agent，比一个 90% 但不稳定的更有实用价值。

4. Safety 作为乘数的设计

Claw-Eval 把 Safety 做成乘数（不是加数），意味着不安全的行为会被惩罚到极低分。这和 NemoClaw/OpenShell 的安全设计理念一致。

📊 评分

维度	评分（/10）
方法论	9.0 — Pass^3 消灭运气、三维评分（Completion+Robustness+Safety）
覆盖度	8.0 — 104 任务覆盖 15 种服务，但任务数仍有限
透明度	9.5 — 全开源、可复现、社区可验证
实用价值	9.0 — 23 个模型完整排名，直接指导模型选择
与我们的关联	8.5 — 我们的 Opus 排第 2，可以自己跑评测
综合	8.8

报告由深度研究助手自动生成 | 2026-03-18

来源: https://github.com/claw-eval/claw-eval

📚 交叉引用 — 🏋️ Benchmark 系列

本报告属于以下系列的一部分：

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）