阶跃星辰 Step 3.5 Flash 深度分析：11B 激活参数如何打赢 37B 模型

> 来源: https://github.com/stepfun-ai/Step-3.5-Flash

> 论文: https://arxiv.org/pdf/2602.10604

> OpenRouter: https://openrouter.ai/stepfun/step-3.5-flash

> 研究时间: 2026-03-19

🎯 一句话版本

阶跃星辰的开源旗舰模型，196B 总参数但只激活 11B，推理成本是 DeepSeek V3.2 的 1/6，却在 Agent 能力上全场最高（τ²-Bench 88.2）。OpenRouter 提供完全免费版本。

📐 架构详解

核心设计

组件	规格
骨架	45 层 Transformer（4,096 hidden dim）
上下文窗口	256K tokens
词表	128,896 tokens
总参数	196.81B（196B 骨架 + 0.81B Head）
激活参数	~11B（每 token）
专家数	每层 288 个路由专家 + 1 个共享专家（始终激活）
稀疏激活	Top-8 专家选择
注意力	3:1 滑动窗口注意力（SWA）比例

三大核心技术

1. 细粒度 MoE 路由

288 个路由专家 + 1 个共享专家的设计非常激进。对比：

DeepSeek V3.2：671B 总参，37B 激活
Kimi K2.5：1T 总参，32B 激活
Step 3.5 Flash：196B 总参，11B 激活

保留 196B 的"记忆"，但以 11B 的成本运行。官方称之为"智能密度"（intelligence density）。

2. MTP-3（3-way Multi-Token Prediction）

单次前向传播预测 4 个 token，推理速度达到 100-300 tok/s（峰值 350 tok/s）。MTP Head 由滑动窗口注意力 + 密集 FFN 组成，不降低质量的前提下大幅加速。

3. 3:1 SWA 混合注意力

每 4 层中有 3 层用滑动窗口注意力，1 层用全注意力。在 256K 长上下文场景下显著降低计算开销，同时保持性能。

📊 性能对比

推理成本对比（128K 上下文，Hopper GPU）

模型	激活参数	相对成本	速度
Step 3.5 Flash	11B	1.0x	100 tok/s, MTP-3, EP8
MiMo-V2 Flash	15B	1.2x	100 tok/s, MTP-3, EP8
MiniMax M2.1	10B	3.9x	100 tok/s, MTP-3, EP8
DeepSeek V3.2	37B	6.0x	33 tok/s, MTP-1, EP32
GLM-4.7	32B	18.9x	33 tok/s, no MTP, EP8
Kimi K2 Thinking	32B	18.9x	33 tok/s, no MTP, EP32

Step 3.5 Flash 的推理成本是 DeepSeek 的 1/6，Kimi 的 1/19。

Benchmark 全面对比

Agent 能力

Benchmark	Step 3.5 Flash	DeepSeek V3.2	Kimi K2.5	GLM-4.7	MiniMax M2.1	MiMo-V2 Flash
τ²-Bench	88.2	80.3	85.4	87.4	86.6	80.3
BrowseComp	51.6	51.4	60.6	52.0	47.4	45.4
BrowseComp-ZH	66.9	65.0	62.3	66.6	47.8	51.2
GAIA (no file)	84.5	75.1	75.9	61.9	64.3	78.2
xbench-DeepSearch	83.7	78.0	76.7	72.0	68.7	69.3
ResearchRubrics	65.3	55.8	59.5	62.0	60.2	54.3

Agent 能力全面领先——τ²-Bench、GAIA、xbench-DeepSearch、ResearchRubrics 四项第一。

推理能力

Benchmark	Step 3.5 Flash	DeepSeek V3.2	Kimi K2.5	GLM-4.7
AIME 2025	97.3	93.1	96.1	95.7
HMMT 2025 (Feb)	98.4	92.5	95.4	97.1
HMMT 2025 (Nov)	94.0	90.2	—	93.5
IMOAnswerBench	85.4	78.3	81.8	82.0

数学推理全面碾压，AIME 97.3、HMMT 98.4。

编程能力

Benchmark	Step 3.5 Flash	DeepSeek V3.2	Kimi K2.5	GLM-4.7
LiveCodeBench-V6	86.4	83.3	85.0	84.9
SWE-bench Verified	74.4	73.1	76.8	73.8
Terminal-Bench 2.0	51.0	46.4	50.8	41.0

编程能力与 Kimi K2.5 不相上下，SWE-bench 略低但 Terminal-Bench 领先。

💰 定价与可用性

OpenRouter

版本	Input	Output	限制
Free (`:free`)	$0	$0	20 req/min, 50 req/天
Paid	$0.10/M	$0.30/M	无限制

两个版本是完全相同的模型，区别仅在速率限制和优先级。

官方 API

区域	平台	Base URL
国际	platform.stepfun.ai	https://api.stepfun.ai/v1
中国	platform.stepfun.com	https://api.stepfun.com/v1

中国平台需要 +86 手机验证。

与其他免费模型对比

模型	激活参数	上下文	Agent	推理	编程
Step 3.5 Flash	11B	256K	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
MiniMax M2.5	10B	196K	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
Nemotron 3 Super	12B	262K	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
Qwen3 Coder	35B	262K	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
gpt-oss-120b	120B	131K	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐

🖥️ 本地部署

硬件要求

配置	精度	适用场景
8×H100/A100 80GB	FP8/BF16	全速推理
Mac Studio M4 Max	—	本地隐私部署
NVIDIA DGX Spark	—	桌面级部署

支持的推理框架

vLLM（推荐，需 nightly build）
SGLang
Hugging Face Transformers
llama.cpp

已适配的 Agent 平台

OpenClaw（有专门 Cookbook）
Claude Code
Roo Code
本地 Agent（macOS 指南）

🏢 关于阶跃星辰

阶跃星辰（StepFun）是中国 AI 创业公司，成立于 2023 年，由前微软亚洲研究院副院长姜大昕创立。

总部：上海
融资：2024 年完成数亿美元 B 轮，估值约 $20 亿
产品线：Step 系列大模型（文本、视觉、视频）
开源策略：Step 3.5 Flash 是首个完全开源的旗舰模型

🧠 深度分析

为什么 11B 激活能打赢 37B？

1. 专家数量极多

288 个专家意味着模型有极细粒度的"知识分区"。每个 token 选 Top-8，相当于在 288 个专家中精确选择最相关的 8 个，比粗粒度 MoE（如 DeepSeek 的 ~160 专家）更精准。

2. 共享专家始终激活

1 个共享专家充当"通用知识库"，确保基础能力不受路由波动影响。

3. MTP-3 不只是加速

多 token 预测不仅提速，还迫使模型学习更长距离的依赖关系，间接提升了推理质量。

局限性

纯文本：不支持多模态（图片/音频/视频）
中文：虽然 BrowseComp-ZH 第一，但整体中文能力未充分展示
开源但不"小"：196B 参数本地部署仍需 8 卡 GPU 或高端 Mac
免费版限制：50 req/天对生产环境太少

对 AI Agent 生态的意义

Step 3.5 Flash 证明了一个重要趋势：Agent 时代的模型竞争焦点是效率，不是参数量。

11B 激活参数做到了 37B 模型的水平，这意味着：

推理成本大幅降低 → Agent 可以更频繁地调用
速度大幅提升 → 用户体验更好
本地部署门槛降低 → 隐私场景可用

这正是 MoE 架构的终极承诺：用参数存知识，用激活控成本。

⭐ 综合评分

维度	评分（/10）
模型性能	9.0 — 11B 激活打到旗舰水平
Agent 能力	9.5 — τ²-Bench/GAIA/xbench 三项第一
推理效率	9.5 — 成本仅 DeepSeek 的 1/6
开源完整度	8.5 — 权重+代码+Cookbook 齐全
本地部署友好度	6.0 — 仍需 8 卡或高端 Mac
多模态	0 — 纯文本
综合	8.5

💡 关键要点

1. 性价比之王：$0.10/$0.30 的价格（或免费）获得旗舰级性能

2. Agent 最强：τ²-Bench 88.2 全场第一，专为 Agent 场景优化

3. MTP-3 是杀手锏：100-350 tok/s 的生成速度让实时交互成为可能

4. MoE 趋势确认：11B 激活 > 37B Dense，效率就是竞争力

5. 免费版是最好的入门选择：小虾等托管平台的理想默认模型

报告由深度研究助手生成 | 2026-03-19

来源: StepFun GitHub + OpenRouter API + 官方 Benchmark

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）