Step 3.5 Flash：196B MoE 开源模型，OpenRouter 免费用

🎯 一句话版本

关于Step 3.5 Flash：196B MoE 开源模型，OpenRouter 免费用的深度研究报告

> 来源: https://openrouter.ai/stepfun/step-3.5-flash:free

> GitHub: https://github.com/stepfun-ai/Step-3.5-Flash

> 论文: https://arxiv.org/pdf/2602.10604

> 公司: StepFun（阶跃星辰）

> 架构: 196B 总参数，11B 激活（Sparse MoE）

> 上下文: 256K tokens

> 价格: OpenRouter Free Tier = $0（免费）

> 日期: 2026-03-11

📌 一句话总结

阶跃星辰发布的 Step 3.5 Flash 是目前最强的开源基础模型之一——196B 总参数但每个 token 只激活 11B，在推理、编码和 Agent 任务上对标 GPT-4o/Claude Opus 级别，OpenRouter 提供完全免费的使用额度。

📊 关键指标

指标	数值
总参数	196B（MoE）
激活参数	~11B/token
上下文窗口	256K
生成速度	100-300 tok/s（峰值 350 tok/s）
SWE-bench Verified	74.4%
Terminal-Bench 2.0	51.0%
AIME 2025	97.3
HMMT 2025	98.4
τ²-Bench	88.2

对比表

模型	激活参数	总参数	SWE-bench	AIME 2025
Step 3.5 Flash	11B	196B	74.4%	97.3
DeepSeek V3.2	37B	671B	73.1%	93.1
Kimi K2.5	32B	1T	76.8%	96.1
GLM-4.7	32B	355B	73.8%	95.7
MiniMax M2.1	10B	230B	74.0%	83.0

核心优势：用 11B 激活参数达到了 37B+ 激活模型的水平，推理成本是 DeepSeek V3.2 的 1/6。

🔧 技术架构

组件	规格
骨干	45 层 Transformer（4,096 hidden dim）
专家	每层 288 个路由专家 + 1 个共享专家
激活	Top-8 选择（每 token 只用 8/288 个专家）
注意力	3:1 滑动窗口注意力（3 层 SWA : 1 层全注意力）
加速	MTP-3（3-way Multi-Token Prediction，一次预测 4 个 token）

为什么这么快

1. Sparse MoE：只激活 11B/196B = 5.6% 的参数

2. MTP-3：一次前向传播预测 4 个 token

3. 3:1 SWA：3/4 的注意力层是滑动窗口，大幅降低长上下文计算量

🌐 使用方式

免费用（OpenRouter）


from openai import OpenAI

client = OpenAI(
    api_key="sk-or-...",
    base_url="https://openrouter.ai/api/v1"
)

response = client.chat.completions.create(
    model="stepfun/step-3.5-flash:free",  # 免费！
    messages=[{"role": "user", "content": "Hello!"}]
)

官方 API（付费，极便宜）

输入：$0.10/M tokens
输出：$0.30/M tokens
对比 Claude Opus：输入 $15/M，输出 $75/M → Step 3.5 Flash 便宜 150-250 倍

本地部署

vLLM / SGLang / HuggingFace / llama.cpp 均支持
Mac Studio M4 Max / NVIDIA DGX Spark 可运行

Agent 平台

官方提供了 OpenClaw Cookbook（推荐）、Claude Code Guide、Roo Code Guide。

💡 分析

为什么值得关注

1. 性价比炸裂：免费用 or $0.10/M tokens，性能对标一线闭源模型

2. Agent 导向：专门为 Agent 任务优化（τ²-Bench 88.2，BrowseComp 51.6）

3. 开源：Apache-2.0 兼容协议，HuggingFace/ModelScope 可下载

4. 256K 上下文：长代码库、长文档场景友好

5. 中国团队：阶跃星辰（StepFun），国内外双 API 端点

局限

1. MoE 部署门槛：196B 总参数 = 需要大显存（本地至少需要高端硬件）

2. 免费层限制：OpenRouter 免费有速率限制

3. vs 闭源一线：在部分 Agent benchmark 上仍略低于 Kimi K2.5

对我们的价值

1. OpenClaw 直接可用：官方有 OpenClaw Cookbook，可以作为廉价 Agent 模型

2. 替代 DeepSeek：我们配置里有 deepseek agent，Step 3.5 Flash 可能是更好的选择（更便宜、Agent 性能更强）

3. 免费研究工具：通过 OpenRouter 免费层做实验/原型

🌐 社区真实反馈（Reddit / X / Medium）

✅ 好评

Reddit r/LocalLLaMA "IS A BEAST"（2026-02 月）：

> "给 OpenClaw 找模型时发现这东西，性价比爆炸。OpenRouter 免费用，直逼 DeepSeek V3.2，体积只有 1/3。"

Reddit "is a beast?"：

> "Agent 任务上确实比 Gemini 3.0 Preview 强，而且速度很快。在 OpenCode 和 Claude Code 上都试了。"

StepFun 官方 AMA（r/LocalLLaMA，2026-02 下旬）：

> "在 OpenClaw 这种训练时没见过的框架上，依然能处理新指令和工具/技能，完成复杂长周期 Agent 任务。"

X/Twitter @TeksEdge（Clawdbot News）（15❤️）：

> "Step 3.5 Flash 在 OpenRouter 上免费 ~100 TPS！Kimi K2.5 仍是 OpenClaw 主力（1.22T tokens），但 Step 3.5 Flash 免费层 + $0.30/M 付费层太香了"

X 热点（2026-03-11）：

> "Step 3.5 Flash 连续三天登顶 OpenClaw 全球调用量榜首"——成为第一个站上全球第一的国产基座模型。

X 开发者：

> "Devs sleeping on Step-3.5 Flash right now. For coding agents it's shockingly good."

Medium 深度评测（Daniel Ferrera）：

> ReAct loop + 工具链（web search / Python / file ops）表现稳定，推理链可追踪。

❌ 差评

Reddit "janky af"（2026-02-04，29 票）：

> "在 OpenCode 里用了一天。能跑的时候很棒，像一个快很多倍的 GLM 4.7。但跑着跑着就开始抽风，需要重启。"

日本用户 X（2026-03-09）：

> "OpenClaw 上试了 Step 3.5 Flash，便宜是便宜，就是各种残念（遗憾）。Kimi K2.5 拿来玩玩倒是刚好。"

中文用户 X：

> "step 3.5 flash 笨笨的但是好可爱" 😂

HuggingFace 官方说明：

> "Step 3.5 Flash 在 distribution shift 时稳定性会下降"——遇到训练时没见过的场景可能出问题。

📋 OpenClaw 使用场景适配评估

场景	推荐度	说明
日常聊天/轻量任务	⭐⭐⭐⭐⭐	完全够用，免费快速
简单 Agent 任务	⭐⭐⭐⭐	工具调用能力不错
复杂编码/长任务	⭐⭐⭐	会抽风，不如 Claude Opus/Sonnet
深度研究报告	⭐⭐	分析深度和中文写作质量差距大
Sub-agent 廉价跑腿	⭐⭐⭐⭐⭐	最佳场景——简单任务交给它省钱

💡 使用建议

1. 主力模型保持 Claude Opus——深度任务不可替代

2. 加一个 Step 3.5 Flash 作为廉价 sub-agent 模型：适合简单自动化/数据抓取/格式转换等

3. 不建议用于 deep-research——报告需要深度分析和中文写作质量

📊 评分

维度	评分（/10）
模型能力	9.0 — 11B 激活打 37B 级别
性价比	9.5 — 免费/极便宜
Agent 适配	9.0 — 专门优化 + OpenClaw Cookbook
开源质量	8.5 — 完整文档 + 多平台部署指南
社区口碑	8.0 — 好评多但有稳定性顾虑
实用价值	9.0 — 可直接集成到我们的工具链
综合	9.0

报告由深度研究助手自动生成 | 2026-03-11

来源: https://openrouter.ai/stepfun/step-3.5-flash:free

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）