Step 3.5 Flash:196B MoE 开源模型,OpenRouter 免费用

> 来源: https://openrouter.ai/stepfun/step-3.5-flash:free

> GitHub: https://github.com/stepfun-ai/Step-3.5-Flash

> 论文: https://arxiv.org/pdf/2602.10604

> 公司: StepFun(阶跃星辰)

> 架构: 196B 总参数,11B 激活(Sparse MoE)

> 上下文: 256K tokens

> 价格: OpenRouter Free Tier = $0(免费)

> 日期: 2026-03-11

📌 一句话总结

阶跃星辰发布的 Step 3.5 Flash 是目前最强的开源基础模型之一——196B 总参数但每个 token 只激活 11B,在推理、编码和 Agent 任务上对标 GPT-4o/Claude Opus 级别,OpenRouter 提供完全免费的使用额度。

📊 关键指标

指标数值
总参数196B(MoE)
激活参数~11B/token
上下文窗口256K
生成速度100-300 tok/s(峰值 350 tok/s)
SWE-bench Verified**74.4%**
Terminal-Bench 2.0**51.0%**
AIME 2025**97.3**
HMMT 2025**98.4**
τ²-Bench**88.2**

对比表

模型激活参数总参数SWE-benchAIME 2025
**Step 3.5 Flash**11B196B74.4%97.3
DeepSeek V3.237B671B73.1%93.1
Kimi K2.532B1T76.8%96.1
GLM-4.732B355B73.8%95.7
MiniMax M2.110B230B74.0%83.0

核心优势:用 11B 激活参数达到了 37B+ 激活模型的水平,推理成本是 DeepSeek V3.2 的 1/6。

🔧 技术架构

组件规格
骨干45 层 Transformer(4,096 hidden dim)
专家每层 288 个路由专家 + 1 个共享专家
激活Top-8 选择(每 token 只用 8/288 个专家)
注意力3:1 滑动窗口注意力(3 层 SWA : 1 层全注意力)
加速MTP-3(3-way Multi-Token Prediction,一次预测 4 个 token)

为什么这么快

1. Sparse MoE:只激活 11B/196B = 5.6% 的参数

2. MTP-3:一次前向传播预测 4 个 token

3. 3:1 SWA:3/4 的注意力层是滑动窗口,大幅降低长上下文计算量

🌐 使用方式

免费用(OpenRouter)


from openai import OpenAI

client = OpenAI(
    api_key="sk-or-...",
    base_url="https://openrouter.ai/api/v1"
)

response = client.chat.completions.create(
    model="stepfun/step-3.5-flash:free",  # 免费!
    messages=[{"role": "user", "content": "Hello!"}]
)

官方 API(付费,极便宜)

本地部署

Agent 平台

官方提供了 OpenClaw Cookbook(推荐)、Claude Code Guide、Roo Code Guide。

💡 分析

为什么值得关注

1. 性价比炸裂:免费用 or $0.10/M tokens,性能对标一线闭源模型

2. Agent 导向:专门为 Agent 任务优化(τ²-Bench 88.2,BrowseComp 51.6)

3. 开源:Apache-2.0 兼容协议,HuggingFace/ModelScope 可下载

4. 256K 上下文:长代码库、长文档场景友好

5. 中国团队:阶跃星辰(StepFun),国内外双 API 端点

局限

1. MoE 部署门槛:196B 总参数 = 需要大显存(本地至少需要高端硬件)

2. 免费层限制:OpenRouter 免费有速率限制

3. vs 闭源一线:在部分 Agent benchmark 上仍略低于 Kimi K2.5

对我们的价值

1. OpenClaw 直接可用:官方有 OpenClaw Cookbook,可以作为廉价 Agent 模型

2. 替代 DeepSeek:我们配置里有 deepseek agent,Step 3.5 Flash 可能是更好的选择(更便宜、Agent 性能更强)

3. 免费研究工具:通过 OpenRouter 免费层做实验/原型

🌐 社区真实反馈(Reddit / X / Medium)

✅ 好评

Reddit r/LocalLLaMA "IS A BEAST"(2026-02 月):

> "给 OpenClaw 找模型时发现这东西,性价比爆炸。OpenRouter 免费用,直逼 DeepSeek V3.2,体积只有 1/3。"

Reddit "is a beast?"

> "Agent 任务上确实比 Gemini 3.0 Preview 强,而且速度很快。在 OpenCode 和 Claude Code 上都试了。"

StepFun 官方 AMA(r/LocalLLaMA,2026-02 下旬):

> "在 OpenClaw 这种训练时没见过的框架上,依然能处理新指令和工具/技能,完成复杂长周期 Agent 任务。"

X/Twitter @TeksEdge(Clawdbot News)(15❤️):

> "Step 3.5 Flash 在 OpenRouter 上免费 ~100 TPS!Kimi K2.5 仍是 OpenClaw 主力(1.22T tokens),但 Step 3.5 Flash 免费层 + $0.30/M 付费层太香了"

X 热点(2026-03-11)

> "Step 3.5 Flash 连续三天登顶 OpenClaw 全球调用量榜首"——成为第一个站上全球第一的国产基座模型。

X 开发者

> "Devs sleeping on Step-3.5 Flash right now. For coding agents it's shockingly good."

Medium 深度评测(Daniel Ferrera)

> ReAct loop + 工具链(web search / Python / file ops)表现稳定,推理链可追踪。

❌ 差评

Reddit "janky af"(2026-02-04,29 票):

> "在 OpenCode 里用了一天。能跑的时候很棒,像一个快很多倍的 GLM 4.7。但跑着跑着就开始抽风,需要重启。"

日本用户 X(2026-03-09):

> "OpenClaw 上试了 Step 3.5 Flash,便宜是便宜,就是各种残念(遗憾)。Kimi K2.5 拿来玩玩倒是刚好。"

中文用户 X

> "step 3.5 flash 笨笨的但是好可爱" 😂

HuggingFace 官方说明

> "Step 3.5 Flash 在 distribution shift 时稳定性会下降"——遇到训练时没见过的场景可能出问题。

📋 OpenClaw 使用场景适配评估

场景推荐度说明
日常聊天/轻量任务⭐⭐⭐⭐⭐完全够用,免费快速
简单 Agent 任务⭐⭐⭐⭐工具调用能力不错
复杂编码/长任务⭐⭐⭐会抽风,不如 Claude Opus/Sonnet
深度研究报告⭐⭐分析深度和中文写作质量差距大
Sub-agent 廉价跑腿⭐⭐⭐⭐⭐最佳场景——简单任务交给它省钱

💡 使用建议

1. 主力模型保持 Claude Opus——深度任务不可替代

2. 加一个 Step 3.5 Flash 作为廉价 sub-agent 模型:适合简单自动化/数据抓取/格式转换等

3. 不建议用于 deep-research——报告需要深度分析和中文写作质量

📊 评分

维度评分(/10)
模型能力9.0 — 11B 激活打 37B 级别
性价比9.5 — 免费/极便宜
Agent 适配9.0 — 专门优化 + OpenClaw Cookbook
开源质量8.5 — 完整文档 + 多平台部署指南
社区口碑8.0 — 好评多但有稳定性顾虑
实用价值9.0 — 可直接集成到我们的工具链
**综合****9.0**

报告由深度研究助手自动生成 | 2026-03-11

来源: https://openrouter.ai/stepfun/step-3.5-flash:free