阶跃星辰 Step 3.5 Flash 深度分析:11B 激活参数如何打赢 37B 模型
> 来源: https://github.com/stepfun-ai/Step-3.5-Flash
> 论文: https://arxiv.org/pdf/2602.10604
> OpenRouter: https://openrouter.ai/stepfun/step-3.5-flash
> 研究时间: 2026-03-19
🎯 一句话版本
阶跃星辰的开源旗舰模型,196B 总参数但只激活 11B,推理成本是 DeepSeek V3.2 的 1/6,却在 Agent 能力上全场最高(τ²-Bench 88.2)。OpenRouter 提供完全免费版本。
📐 架构详解
核心设计
| 组件 | 规格 |
|---|---|
| 骨架 | 45 层 Transformer(4,096 hidden dim) |
| 上下文窗口 | 256K tokens |
| 词表 | 128,896 tokens |
| 总参数 | 196.81B(196B 骨架 + 0.81B Head) |
| 激活参数 | **~11B**(每 token) |
| 专家数 | 每层 288 个路由专家 + 1 个共享专家(始终激活) |
| 稀疏激活 | Top-8 专家选择 |
| 注意力 | 3:1 滑动窗口注意力(SWA)比例 |
三大核心技术
1. 细粒度 MoE 路由
288 个路由专家 + 1 个共享专家的设计非常激进。对比:
- DeepSeek V3.2:671B 总参,37B 激活
- Kimi K2.5:1T 总参,32B 激活
- Step 3.5 Flash:196B 总参,11B 激活
保留 196B 的"记忆",但以 11B 的成本运行。官方称之为"智能密度"(intelligence density)。
2. MTP-3(3-way Multi-Token Prediction)
单次前向传播预测 4 个 token,推理速度达到 100-300 tok/s(峰值 350 tok/s)。MTP Head 由滑动窗口注意力 + 密集 FFN 组成,不降低质量的前提下大幅加速。
3. 3:1 SWA 混合注意力
每 4 层中有 3 层用滑动窗口注意力,1 层用全注意力。在 256K 长上下文场景下显著降低计算开销,同时保持性能。
📊 性能对比
推理成本对比(128K 上下文,Hopper GPU)
| 模型 | 激活参数 | 相对成本 | 速度 |
|---|---|---|---|
| **Step 3.5 Flash** | **11B** | **1.0x** | 100 tok/s, MTP-3, EP8 |
| MiMo-V2 Flash | 15B | 1.2x | 100 tok/s, MTP-3, EP8 |
| MiniMax M2.1 | 10B | 3.9x | 100 tok/s, MTP-3, EP8 |
| DeepSeek V3.2 | 37B | **6.0x** | 33 tok/s, MTP-1, EP32 |
| GLM-4.7 | 32B | **18.9x** | 33 tok/s, no MTP, EP8 |
| Kimi K2 Thinking | 32B | **18.9x** | 33 tok/s, no MTP, EP32 |
Step 3.5 Flash 的推理成本是 DeepSeek 的 1/6,Kimi 的 1/19。
Benchmark 全面对比
Agent 能力
| Benchmark | Step 3.5 Flash | DeepSeek V3.2 | Kimi K2.5 | GLM-4.7 | MiniMax M2.1 | MiMo-V2 Flash |
|---|---|---|---|---|---|---|
| τ²-Bench | **88.2** | 80.3 | 85.4 | 87.4 | 86.6 | 80.3 |
| BrowseComp | 51.6 | 51.4 | **60.6** | 52.0 | 47.4 | 45.4 |
| BrowseComp-ZH | **66.9** | 65.0 | 62.3 | 66.6 | 47.8 | 51.2 |
| GAIA (no file) | **84.5** | 75.1 | 75.9 | 61.9 | 64.3 | 78.2 |
| xbench-DeepSearch | **83.7** | 78.0 | 76.7 | 72.0 | 68.7 | 69.3 |
| ResearchRubrics | **65.3** | 55.8 | 59.5 | 62.0 | 60.2 | 54.3 |
Agent 能力全面领先——τ²-Bench、GAIA、xbench-DeepSearch、ResearchRubrics 四项第一。
推理能力
| Benchmark | Step 3.5 Flash | DeepSeek V3.2 | Kimi K2.5 | GLM-4.7 |
|---|---|---|---|---|
| AIME 2025 | **97.3** | 93.1 | 96.1 | 95.7 |
| HMMT 2025 (Feb) | **98.4** | 92.5 | 95.4 | 97.1 |
| HMMT 2025 (Nov) | **94.0** | 90.2 | — | 93.5 |
| IMOAnswerBench | **85.4** | 78.3 | 81.8 | 82.0 |
数学推理全面碾压,AIME 97.3、HMMT 98.4。
编程能力
| Benchmark | Step 3.5 Flash | DeepSeek V3.2 | Kimi K2.5 | GLM-4.7 |
|---|---|---|---|---|
| LiveCodeBench-V6 | **86.4** | 83.3 | 85.0 | 84.9 |
| SWE-bench Verified | 74.4 | 73.1 | **76.8** | 73.8 |
| Terminal-Bench 2.0 | **51.0** | 46.4 | 50.8 | 41.0 |
编程能力与 Kimi K2.5 不相上下,SWE-bench 略低但 Terminal-Bench 领先。
💰 定价与可用性
OpenRouter
| 版本 | Input | Output | 限制 |
|---|---|---|---|
| **Free** (`:free`) | $0 | $0 | 20 req/min, 50 req/天 |
| **Paid** | $0.10/M | $0.30/M | 无限制 |
两个版本是完全相同的模型,区别仅在速率限制和优先级。
官方 API
| 区域 | 平台 | Base URL |
|---|---|---|
| 国际 | platform.stepfun.ai | https://api.stepfun.ai/v1 |
| 中国 | platform.stepfun.com | https://api.stepfun.com/v1 |
中国平台需要 +86 手机验证。
与其他免费模型对比
| 模型 | 激活参数 | 上下文 | Agent | 推理 | 编程 |
|---|---|---|---|---|---|
| **Step 3.5 Flash** | 11B | 256K | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| MiniMax M2.5 | 10B | 196K | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| Nemotron 3 Super | 12B | 262K | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| Qwen3 Coder | 35B | 262K | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| gpt-oss-120b | 120B | 131K | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
🖥️ 本地部署
硬件要求
| 配置 | 精度 | 适用场景 |
|---|---|---|
| 8×H100/A100 80GB | FP8/BF16 | 全速推理 |
| Mac Studio M4 Max | — | 本地隐私部署 |
| NVIDIA DGX Spark | — | 桌面级部署 |
支持的推理框架
- vLLM(推荐,需 nightly build)
- SGLang
- Hugging Face Transformers
- llama.cpp
已适配的 Agent 平台
- OpenClaw(有专门 Cookbook)
- Claude Code
- Roo Code
- 本地 Agent(macOS 指南)
🏢 关于阶跃星辰
阶跃星辰(StepFun)是中国 AI 创业公司,成立于 2023 年,由前微软亚洲研究院副院长姜大昕创立。
- 总部:上海
- 融资:2024 年完成数亿美元 B 轮,估值约 $20 亿
- 产品线:Step 系列大模型(文本、视觉、视频)
- 开源策略:Step 3.5 Flash 是首个完全开源的旗舰模型
🧠 深度分析
为什么 11B 激活能打赢 37B?
1. 专家数量极多
288 个专家意味着模型有极细粒度的"知识分区"。每个 token 选 Top-8,相当于在 288 个专家中精确选择最相关的 8 个,比粗粒度 MoE(如 DeepSeek 的 ~160 专家)更精准。
2. 共享专家始终激活
1 个共享专家充当"通用知识库",确保基础能力不受路由波动影响。
3. MTP-3 不只是加速
多 token 预测不仅提速,还迫使模型学习更长距离的依赖关系,间接提升了推理质量。
局限性
- 纯文本:不支持多模态(图片/音频/视频)
- 中文:虽然 BrowseComp-ZH 第一,但整体中文能力未充分展示
- 开源但不"小":196B 参数本地部署仍需 8 卡 GPU 或高端 Mac
- 免费版限制:50 req/天对生产环境太少
对 AI Agent 生态的意义
Step 3.5 Flash 证明了一个重要趋势:Agent 时代的模型竞争焦点是效率,不是参数量。
11B 激活参数做到了 37B 模型的水平,这意味着:
- 推理成本大幅降低 → Agent 可以更频繁地调用
- 速度大幅提升 → 用户体验更好
- 本地部署门槛降低 → 隐私场景可用
这正是 MoE 架构的终极承诺:用参数存知识,用激活控成本。
⭐ 综合评分
| 维度 | 评分(/10) |
|---|---|
| 模型性能 | 9.0 — 11B 激活打到旗舰水平 |
| Agent 能力 | 9.5 — τ²-Bench/GAIA/xbench 三项第一 |
| 推理效率 | 9.5 — 成本仅 DeepSeek 的 1/6 |
| 开源完整度 | 8.5 — 权重+代码+Cookbook 齐全 |
| 本地部署友好度 | 6.0 — 仍需 8 卡或高端 Mac |
| 多模态 | 0 — 纯文本 |
| **综合** | **8.5** |
💡 关键要点
1. 性价比之王:$0.10/$0.30 的价格(或免费)获得旗舰级性能
2. Agent 最强:τ²-Bench 88.2 全场第一,专为 Agent 场景优化
3. MTP-3 是杀手锏:100-350 tok/s 的生成速度让实时交互成为可能
4. MoE 趋势确认:11B 激活 > 37B Dense,效率就是竞争力
5. 免费版是最好的入门选择:小虾等托管平台的理想默认模型
报告由深度研究助手生成 | 2026-03-19
来源: StepFun GitHub + OpenRouter API + 官方 Benchmark