ClawEval vs PinchBench 深度对比：OpenClaw 生态的两大 Agent 评测基准

> PinchBench 官网: https://pinchbench.com/

> PinchBench GitHub: https://github.com/pinchbench/skill

> ClawEval GitHub: https://github.com/explaindio/ClawEval

> 研究时间: 2026-03-19

🎯 一句话版本

PinchBench 和 ClawEval 都是测试"AI 模型在 OpenClaw 里能干多少活"的考试，但 PinchBench 像"23 道实操题"（能不能完成任务），ClawEval 像"59 个岗位面试"（能不能胜任角色）。两者互补，一起看才能全面评估模型。

📖 为什么需要 Agent 评测？

传统 AI 评测（MMLU、HumanEval 等）测的是"模型有多聪明"——知道多少知识、能写多好的代码。但在 Agent 时代，我们关心的是"模型插进 OpenClaw 后，能不能真正完成任务"。

这就像招聘：GPA 高不代表能干活。PinchBench 和 ClawEval 就是 Agent 时代的"实习考核"和"岗位面试"。

🦞 PinchBench：23 道实操考试

基本信息

属性	详情
开发者	kilo.ai 团队
技术栈	Rust
任务数	23 个
开源协议	MIT
仓库	3 个：skill（任务+评分）、leaderboard（前端）、api（后端）
依赖	Python 3.10+、uv、运行中的 OpenClaw 实例

设计哲学

PinchBench 的核心理念是"测真实的"：不出合成题，而是把用户真正会让 OpenClaw 做的事情拿来考。

23 个任务分类

类别	测试内容	示例
生产力	日程管理、每日摘要	创建日历事件、时间解析
研究	信息搜索与分析	查股价、会议检索、竞品分析
写作	内容创作	博客、邮件、通俗化解释
编码	代码生成与文件操作	写天气脚本、创建项目结构
分析	数据处理	表格摘要、PDF 提取
邮件	收件箱管理	邮件分类、搜索
记忆	长期记忆	跨会话信息存取
Skills	OpenClaw 生态集成	ClawHub 技能发现与安装

评分系统（三种模式）

1. 自动评分：Python 函数检查文件和日志（确定性）

2. LLM 裁判：Claude Opus 根据评分标准打分（主观但细腻）

3. 混合：两者结合

版本控制亮点

每次评测结果绑定到 Git commit hash。换了评分标准？新开一个"世代"——旧结果保留但不混在一起。这解决了"规则变了分数不可比"的问题。

当前排行榜（2026 年 3 月）

模型	平均分	最佳单次
Nemotron-3-Super-120B	84.7%	—
Claude Sonnet 4.6	—	86.9%
Claude Opus 4.6	80.8%	86.3%
GPT-5.4	80.5%	86.0%
MiMo-V2-Pro	—	84.0%
Qwen 3.5-397B	80.5%	—
Kimi K2.5	80.1%	—

关键发现：平均分和最佳单次差距暴露了模型的稳定性——Sonnet 单次能到 86.9% 但平均可能低于 Opus，说明它"时好时坏"。

PinchBench 的弱点

图像生成任务几乎全军覆没。所有模型得分接近零。这到底是模型问题还是测试设计问题？当沙箱里可能没有图像生成工具时，你测的是环境配置而不是智能。

📋 ClawEval：59 个岗位面试

基本信息

属性	详情
开发者	explaindio（社区项目）
任务数	59 个专业角色
测试阶段	Phase F（角色测试 590 分）+ Phase G（判别测试 110 分）+ Phase D（对抗性）
评分方式	纯确定性——精确预期答案，无 LLM-as-judge
特色	按 VRAM 分层指南（8/16/24/32/48/64/96 GB）

设计哲学

ClawEval 的核心理念是"可复现、零主观"：每个测试有精确的预期答案，不用 LLM 当裁判，不靠"感觉"打分。这是它和 PinchBench 最大的区别。

口号很硬气："Most benchmarks tell you a model is 'smart.' ClawEval tells you if it can do the work."

59 个角色分 5 个层级

层级	角色数	典型角色	难度
Tier 1 Utility	8	路由/分拣、输入验证、健康监控、通知、情感分析、FAQ、翻译、日历	基础
Tier 2 Moderate	27	研究、内容写作、编辑、邮件起草、文档摘要、会议纪要、社交媒体、新闻聚合、购物、记忆管理、数据分析、网页抓取、客服、潜客评分	中等
Tier 3 Advanced	~15	代码生成、代码审查、QA 测试、任务规划	高级
Tier 4-5	~9	法律、金融、安全等专业领域	专家

评分系统

Phase F（满分 590）：每个角色的标准测试
Phase G（满分 110）：判别测试——模型能否区分好坏输出
Phase D：对抗性 prompt——测试模型抗攻击能力
Think vs No-Think：同一模型在推理模式开/关下的表现对比

按 VRAM 分层——独特卖点

ClawEval 最独特的地方：按 GPU 显存分层推荐最佳模型。

VRAM	推荐模型	适用场景
8-16 GB	Qwen3.5-0.8B/2B/4B Q4_K_M	轻量子 Agent
24 GB	Qwen3.5-27B / 35B-A3B Q4_K_M	甜蜜点（RTX 4090）
64-96 GB	Qwen3.5-122B-A10B / Nemotron-3-Super-120B	全能主 Agent

RTX 3090 用户的福音："$799 买的 3090，跑 24GB 层的模型，很多任务得分和几千美元的云 API 一样。"

当前排行榜

模型	Phase F (590)	Phase G (110)
Qwen3.5-Plus	482 (82%)	86 (78%)
Kimi K2.5	473 (80%)	96 (87%)
GLM-5	465 (79%)	80 (73%)
MiniMax-M2.5	465 (79%)	78 (71%)

注意：ClawEval 目前主要测试的是开源/量化模型和中国 API 模型，Claude/GPT 系列的数据较少。

⚔️ 核心对比

维度	PinchBench	ClawEval
测什么	23 个端到端任务完成	59 个专业角色胜任度
类比	实操考试	岗位面试
评分哲学	混合（自动+LLM 裁判）	纯确定性（无 LLM 裁判）
可复现性	高（Git hash 绑定）	极高（精确预期答案）
主要指标	成功率 + 速度 + 成本	角色得分 + 判别能力
模型覆盖	API 模型为主（OpenRouter 路由）	本地量化模型为主 + 部分 API
VRAM 指南	❌	✅ 按 8-96GB 分层推荐
对抗测试	❌	✅ Phase D 对抗性 prompt
Think/No-Think	❌	✅ 对比推理模式开关
开源	MIT，3 个仓库	✅ 开源
开发者	kilo.ai（专业团队）	explaindio（社区）
技术栈	Rust	Python

哪个更适合你？

"我要选一个 API 模型跑 OpenClaw 日常任务" → 看 PinchBench
"我有一块 GPU，想知道哪个本地模型最适合当子 Agent" → 看 ClawEval
"我要全面评估模型能力" → 两个都看

🔬 深度分析

评分哲学的根本分歧

PinchBench 用 LLM 裁判（Claude Opus 打分），好处是能评估"创意写作""邮件语气"这种主观任务；坏处是引入了 LLM 偏见——Opus 裁判可能对 Opus 选手有隐性偏好。

ClawEval 坚持"零主观"，每个答案都有精确匹配。好处是 100% 可复现；坏处是无法评估开放式创造力任务（所以有 5 个角色需要人工评审）。

中国模型的崛起

两个榜单都显示了一个共同趋势：中国模型在 Agent 场景下的表现已经接近甚至超过西方模型。

PinchBench：MiMo-V2-Pro 84.0 (#3) 紧追 Claude Sonnet/Opus

ClawEval：Qwen3.5-Plus 82% 领跑，Kimi K2.5 判别能力最强

"稳定性"是隐藏维度

PinchBench 暴露了一个关键问题：平均分和最佳单次差距巨大。比如一个模型最佳 86% 但平均只有 80%——意味着 Agent 行为不可预测。在生产环境中，我们需要的是"可靠的 80%"而不是"偶尔 86%"。

ClawEval 的 Think vs No-Think 测试也揭示了类似问题：有些模型开启推理模式反而降分。

缺失的维度

两个基准都没有很好覆盖的：

1. 多 Agent 协作——单 Agent 表现好不代表多 Agent 协调也好

2. 长期记忆演化——跨越天/周的记忆准确性

3. 安全边界——ClawEval 有 Phase D 但 PinchBench 没有

4. 成本效率——PinchBench 有速度和成本，ClawEval 有 VRAM 指南，但没有统一的"每美元智能"指标

💡 与我们的关联

1. 模型选择指南

我们目前用 Claude Opus 跑 OpenClaw。根据两个基准：

PinchBench：Opus 平均 80.8%，不是最高
ClawEval：Opus 数据不多，但 Qwen3.5-Plus 82% 领跑

启示：对于非关键任务，可以考虑 MiMo-V2-Pro 或 Qwen3.5-Plus，性价比更高。

2. ub2 模型选择

ClawEval 的 VRAM 分层指南直接告诉我们：RTX 4090 (24GB) 的甜蜜点是 Qwen3.5-27B Q4_K_M——我们已经装了！Qwopus 蒸馏版如果成功，可以和 ClawEval 数据对比看是否值得。

3. 可以自己跑 PinchBench

PinchBench 是 MIT 开源的，我们可以在自己的 OpenClaw 实例上跑。这比看别人的排行榜更有价值——因为我们的环境配置、Skills、记忆都不同。

4. 报告引用标准化

以后在深度研究报告的评分表中引用模型排名时，应该注明来源是 PinchBench 还是 ClawEval——两者的分数体系不同，不能直接比较。

📊 评分

维度	评分（/10）
技术深度	8.5 — 两个基准各有独到设计
实用价值	9.0 — 直接指导模型选择和 GPU 配置
方法论严谨性	8.5 — ClawEval 确定性评分更严谨，PinchBench 版本控制更好
与我们的关联	9.0 — 直接影响 OpenClaw 模型选型、ub2 本地模型配置
生态影响力	8.0 — MiMo/GLM/Kimi 都在用这两个基准做营销
综合	8.5

报告由深度研究助手自动生成 | 2026-03-19

来源: https://pinchbench.com/ | https://github.com/explaindio/ClawEval

📚 交叉引用 — 🏋️ Benchmark 系列

本报告属于以下系列的一部分：

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）