ClawEval vs PinchBench 深度对比:OpenClaw 生态的两大 Agent 评测基准
> PinchBench 官网: https://pinchbench.com/
> PinchBench GitHub: https://github.com/pinchbench/skill
> ClawEval GitHub: https://github.com/explaindio/ClawEval
> 研究时间: 2026-03-19
🎯 一句话版本
PinchBench 和 ClawEval 都是测试"AI 模型在 OpenClaw 里能干多少活"的考试,但 PinchBench 像"23 道实操题"(能不能完成任务),ClawEval 像"59 个岗位面试"(能不能胜任角色)。两者互补,一起看才能全面评估模型。
📖 为什么需要 Agent 评测?
传统 AI 评测(MMLU、HumanEval 等)测的是"模型有多聪明"——知道多少知识、能写多好的代码。但在 Agent 时代,我们关心的是"模型插进 OpenClaw 后,能不能真正完成任务"。
这就像招聘:GPA 高不代表能干活。PinchBench 和 ClawEval 就是 Agent 时代的"实习考核"和"岗位面试"。
🦞 PinchBench:23 道实操考试
基本信息
| 属性 | 详情 |
|---|---|
| **开发者** | kilo.ai 团队 |
| **技术栈** | Rust |
| **任务数** | 23 个 |
| **开源协议** | MIT |
| **仓库** | 3 个:skill(任务+评分)、leaderboard(前端)、api(后端) |
| **依赖** | Python 3.10+、uv、运行中的 OpenClaw 实例 |
设计哲学
PinchBench 的核心理念是"测真实的":不出合成题,而是把用户真正会让 OpenClaw 做的事情拿来考。
23 个任务分类
| 类别 | 测试内容 | 示例 |
|---|---|---|
| **生产力** | 日程管理、每日摘要 | 创建日历事件、时间解析 |
| **研究** | 信息搜索与分析 | 查股价、会议检索、竞品分析 |
| **写作** | 内容创作 | 博客、邮件、通俗化解释 |
| **编码** | 代码生成与文件操作 | 写天气脚本、创建项目结构 |
| **分析** | 数据处理 | 表格摘要、PDF 提取 |
| **邮件** | 收件箱管理 | 邮件分类、搜索 |
| **记忆** | 长期记忆 | 跨会话信息存取 |
| **Skills** | OpenClaw 生态集成 | ClawHub 技能发现与安装 |
评分系统(三种模式)
1. 自动评分:Python 函数检查文件和日志(确定性)
2. LLM 裁判:Claude Opus 根据评分标准打分(主观但细腻)
3. 混合:两者结合
版本控制亮点
每次评测结果绑定到 Git commit hash。换了评分标准?新开一个"世代"——旧结果保留但不混在一起。这解决了"规则变了分数不可比"的问题。
当前排行榜(2026 年 3 月)
| 模型 | 平均分 | 最佳单次 |
|---|---|---|
| Nemotron-3-Super-120B | 84.7% | — |
| Claude Sonnet 4.6 | — | **86.9%** |
| Claude Opus 4.6 | 80.8% | 86.3% |
| GPT-5.4 | 80.5% | 86.0% |
| MiMo-V2-Pro | — | 84.0% |
| Qwen 3.5-397B | 80.5% | — |
| Kimi K2.5 | 80.1% | — |
关键发现:平均分和最佳单次差距暴露了模型的稳定性——Sonnet 单次能到 86.9% 但平均可能低于 Opus,说明它"时好时坏"。
PinchBench 的弱点
图像生成任务几乎全军覆没。所有模型得分接近零。这到底是模型问题还是测试设计问题?当沙箱里可能没有图像生成工具时,你测的是环境配置而不是智能。
📋 ClawEval:59 个岗位面试
基本信息
| 属性 | 详情 |
|---|---|
| **开发者** | explaindio(社区项目) |
| **任务数** | 59 个专业角色 |
| **测试阶段** | Phase F(角色测试 590 分)+ Phase G(判别测试 110 分)+ Phase D(对抗性) |
| **评分方式** | **纯确定性**——精确预期答案,无 LLM-as-judge |
| **特色** | 按 VRAM 分层指南(8/16/24/32/48/64/96 GB) |
设计哲学
ClawEval 的核心理念是"可复现、零主观":每个测试有精确的预期答案,不用 LLM 当裁判,不靠"感觉"打分。这是它和 PinchBench 最大的区别。
口号很硬气:"Most benchmarks tell you a model is 'smart.' ClawEval tells you if it can do the work."
59 个角色分 5 个层级
| 层级 | 角色数 | 典型角色 | 难度 |
|---|---|---|---|
| **Tier 1 Utility** | 8 | 路由/分拣、输入验证、健康监控、通知、情感分析、FAQ、翻译、日历 | 基础 |
| **Tier 2 Moderate** | 27 | 研究、内容写作、编辑、邮件起草、文档摘要、会议纪要、社交媒体、新闻聚合、购物、记忆管理、数据分析、网页抓取、客服、潜客评分 | 中等 |
| **Tier 3 Advanced** | ~15 | 代码生成、代码审查、QA 测试、任务规划 | 高级 |
| **Tier 4-5** | ~9 | 法律、金融、安全等专业领域 | 专家 |
评分系统
- Phase F(满分 590):每个角色的标准测试
- Phase G(满分 110):判别测试——模型能否区分好坏输出
- Phase D:对抗性 prompt——测试模型抗攻击能力
- Think vs No-Think:同一模型在推理模式开/关下的表现对比
按 VRAM 分层——独特卖点
ClawEval 最独特的地方:按 GPU 显存分层推荐最佳模型。
| VRAM | 推荐模型 | 适用场景 |
|---|---|---|
| 8-16 GB | Qwen3.5-0.8B/2B/4B Q4_K_M | 轻量子 Agent |
| 24 GB | Qwen3.5-27B / 35B-A3B Q4_K_M | **甜蜜点**(RTX 4090) |
| 64-96 GB | Qwen3.5-122B-A10B / Nemotron-3-Super-120B | 全能主 Agent |
RTX 3090 用户的福音:"$799 买的 3090,跑 24GB 层的模型,很多任务得分和几千美元的云 API 一样。"
当前排行榜
| 模型 | Phase F (590) | Phase G (110) |
|---|---|---|
| **Qwen3.5-Plus** | 482 (82%) | 86 (78%) |
| **Kimi K2.5** | 473 (80%) | **96 (87%)** |
| **GLM-5** | 465 (79%) | 80 (73%) |
| **MiniMax-M2.5** | 465 (79%) | 78 (71%) |
注意:ClawEval 目前主要测试的是开源/量化模型和中国 API 模型,Claude/GPT 系列的数据较少。
⚔️ 核心对比
| 维度 | PinchBench | ClawEval |
|---|---|---|
| **测什么** | 23 个端到端任务完成 | 59 个专业角色胜任度 |
| **类比** | 实操考试 | 岗位面试 |
| **评分哲学** | 混合(自动+LLM 裁判) | 纯确定性(无 LLM 裁判) |
| **可复现性** | 高(Git hash 绑定) | 极高(精确预期答案) |
| **主要指标** | 成功率 + 速度 + 成本 | 角色得分 + 判别能力 |
| **模型覆盖** | API 模型为主(OpenRouter 路由) | 本地量化模型为主 + 部分 API |
| **VRAM 指南** | ❌ | ✅ 按 8-96GB 分层推荐 |
| **对抗测试** | ❌ | ✅ Phase D 对抗性 prompt |
| **Think/No-Think** | ❌ | ✅ 对比推理模式开关 |
| **开源** | MIT,3 个仓库 | ✅ 开源 |
| **开发者** | kilo.ai(专业团队) | explaindio(社区) |
| **技术栈** | Rust | Python |
哪个更适合你?
- "我要选一个 API 模型跑 OpenClaw 日常任务" → 看 PinchBench
- "我有一块 GPU,想知道哪个本地模型最适合当子 Agent" → 看 ClawEval
- "我要全面评估模型能力" → 两个都看
🔬 深度分析
评分哲学的根本分歧
PinchBench 用 LLM 裁判(Claude Opus 打分),好处是能评估"创意写作""邮件语气"这种主观任务;坏处是引入了 LLM 偏见——Opus 裁判可能对 Opus 选手有隐性偏好。
ClawEval 坚持"零主观",每个答案都有精确匹配。好处是 100% 可复现;坏处是无法评估开放式创造力任务(所以有 5 个角色需要人工评审)。
中国模型的崛起
两个榜单都显示了一个共同趋势:中国模型在 Agent 场景下的表现已经接近甚至超过西方模型。
PinchBench:MiMo-V2-Pro 84.0 (#3) 紧追 Claude Sonnet/Opus
ClawEval:Qwen3.5-Plus 82% 领跑,Kimi K2.5 判别能力最强
"稳定性"是隐藏维度
PinchBench 暴露了一个关键问题:平均分和最佳单次差距巨大。比如一个模型最佳 86% 但平均只有 80%——意味着 Agent 行为不可预测。在生产环境中,我们需要的是"可靠的 80%"而不是"偶尔 86%"。
ClawEval 的 Think vs No-Think 测试也揭示了类似问题:有些模型开启推理模式反而降分。
缺失的维度
两个基准都没有很好覆盖的:
1. 多 Agent 协作——单 Agent 表现好不代表多 Agent 协调也好
2. 长期记忆演化——跨越天/周的记忆准确性
3. 安全边界——ClawEval 有 Phase D 但 PinchBench 没有
4. 成本效率——PinchBench 有速度和成本,ClawEval 有 VRAM 指南,但没有统一的"每美元智能"指标
💡 与我们的关联
1. 模型选择指南
我们目前用 Claude Opus 跑 OpenClaw。根据两个基准:
- PinchBench:Opus 平均 80.8%,不是最高
- ClawEval:Opus 数据不多,但 Qwen3.5-Plus 82% 领跑
启示:对于非关键任务,可以考虑 MiMo-V2-Pro 或 Qwen3.5-Plus,性价比更高。
2. ub2 模型选择
ClawEval 的 VRAM 分层指南直接告诉我们:RTX 4090 (24GB) 的甜蜜点是 Qwen3.5-27B Q4_K_M——我们已经装了!Qwopus 蒸馏版如果成功,可以和 ClawEval 数据对比看是否值得。
3. 可以自己跑 PinchBench
PinchBench 是 MIT 开源的,我们可以在自己的 OpenClaw 实例上跑。这比看别人的排行榜更有价值——因为我们的环境配置、Skills、记忆都不同。
4. 报告引用标准化
以后在深度研究报告的评分表中引用模型排名时,应该注明来源是 PinchBench 还是 ClawEval——两者的分数体系不同,不能直接比较。
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 技术深度 | 8.5 — 两个基准各有独到设计 |
| 实用价值 | 9.0 — 直接指导模型选择和 GPU 配置 |
| 方法论严谨性 | 8.5 — ClawEval 确定性评分更严谨,PinchBench 版本控制更好 |
| 与我们的关联 | 9.0 — 直接影响 OpenClaw 模型选型、ub2 本地模型配置 |
| 生态影响力 | 8.0 — MiMo/GLM/Kimi 都在用这两个基准做营销 |
| **综合** | **8.5** |
报告由深度研究助手自动生成 | 2026-03-19
来源: https://pinchbench.com/ | https://github.com/explaindio/ClawEval