DeepSeek-V4 — 百万 Token 上下文的高效 MoE 模型

> 一句话版本：DeepSeek 的第四代旗舰模型。V4-Pro 1.6T 参数（激活 49B），原生支持 100 万 token 上下文，长文本推理 FLOPs 仅为 V3.2 的 27%，KV cache 仅 10%。开源模型中新的 SOTA。

项目	信息
来源	[DeepSeek-V4 论文 PDF](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf)
公司	DeepSeek-AI
发布	2026-04-24
模型	V4-Pro（1.6T / 49B 激活）+ V4-Flash（284B / 13B 激活）
上下文	100 万 token
协议	开源（权重已发布）

两个版本

	V4-Pro	V4-Flash
总参数	1.6T	284B
激活参数	49B	13B
训练数据	33T tokens	32T tokens
定位	旗舰	高性价比
1M 上下文 FLOPs（vs V3.2）	27%	10%
1M 上下文 KV cache（vs V3.2）	10%	7%

三大架构创新

1. 混合注意力：CSA + HCA

Compressed Sparse Attention (CSA)：

每 m 个 token 的 KV 压缩为 1 个 entry
然后用 Lightning Indexer 做 top-k 稀疏选择
类似 DeepSeek Sparse Attention 但更高效

Heavily Compressed Attention (HCA)：

更激进的压缩：每 m'（>> m）个 token 压缩为 1 个
保留密集注意力（不做稀疏选择）
极致节省 KV cache

两者交替使用（hybrid），再加上滑动窗口注意力保留局部精细依赖。

2. Manifold-Constrained Hyper-Connections (mHC)

升级传统残差连接：

残差映射矩阵 B 约束在双随机矩阵流形（Birkhoff polytope）上
谱范数 ≤ 1 → 非膨胀变换 → 数值稳定
参数动态生成（输入相关 + 静态偏置）
Sinkhorn-Knopp 算法投影到约束流形

3. Muon 优化器

用于大部分模块（embedding/prediction head/RMSNorm 仍用 AdamW）
混合 Newton-Schulz 迭代做正交化（8 步快速收敛 + 2 步稳定化）
更快收敛 + 更好的训练稳定性
RMSNorm 直接应用于 attention queries/KV entries → 避免 QK-Clip

其他技术细节

DeepSeekMoE — 保留，微调：激活函数 Sigmoid → Sqrt(Softplus)，初始层改用 Hash routing
Multi-Token Prediction (MTP) — 保留 V3 配置不变
FP4 量化 — MoE 专家权重和 indexer QK 路径用 FP4
KV cache 混合精度 — RoPE 维度 BF16，其余 FP8（比纯 BF16 减半）
On-Disk KV Cache — 异构 KV cache 结构 + 磁盘存储策略

后训练流程

两阶段范式：

1. 专家独立训练 — 对数学、代码、Agent、指令遵循分别训练专家（SFT + GRPO 强化学习）

2. 统一蒸馏 — 一个学生模型从所有专家老师学习（reverse KL loss）

推理力度模式：

Non-Think → High → Max
Max 模式用更长上下文 + 减少长度惩罚

Benchmark 性能（V4-Pro-Max）

知识

SimpleQA / Chinese-SimpleQA：显著超过所有开源模型
MMLU-Pro / HLE / GPQA：略微领先开源，仍落后 Gemini-3.1-Pro

推理

超过 GPT-5.2 和 Gemini-3.0-Pro
略低于 GPT-5.4 和 Gemini-3.1-Pro（落后约 3-6 个月）
Codeforces 排名第 23（人类选手中）
Putnam-2025 数学竞赛：120/120 满分

Agent

与 Kimi-K2.6、GLM-5.1 持平（开源最好）
略低于前沿闭源模型
MCPAtlas / Toolathlon 表现优秀（MCP 服务泛化能力强）

长上下文

MRCR（1M token 检索）：超过 Gemini-3.1-Pro
128K 内稳定，128K-1M 缓慢下降但仍强
CorpusQA（真实场景）：超过 Gemini-3.1-Pro

V4-Flash

知识较弱（参数少）
推理给更大思考预算后接近 V4-Pro
Agent 简单任务持平，复杂任务落后 V4-Pro

效率对比（1M token 上下文）

指标	V4-Pro vs V3.2	V4-Flash vs V3.2
单 token FLOPs	27%（3.7× 低）	10%（9.5× 低）
KV cache 大小	10%（9.8× 小）	7%（13.7× 小）

分析

优势：

🔥 百万 token 上下文原生支持——不是 hack，是架构级效率突破
🔥 开源 SOTA——开源模型中最强，多个维度超过闭源模型
🔥 极致效率——1M 上下文下 FLOPs 仅为前代的 27%
🔥 Putnam 120/120——数学推理到达新高度
🔥 FP4 量化——未来硬件上可额外提升 33% 效率
📊 两阶段后训练——专家独立训练 + 统一蒸馏，方法论创新

风险：

⚠️ 推理成本仍高——1.6T 参数即使激活 49B，推理成本不低
⚠️ 仍落后 Gemini-3.1-Pro 知识评估——差距在缩小但存在
⚠️ Agent 能力略低于闭源——K2.6/GLM-5.1 同级别
🟡 压缩注意力可能丢失细节——CSA/HCA 的信息损失

与 Jay 的关联：

🔥 OpenClaw 模型选择——V4-Pro 是中文最强开源模型，适合 researcher agent
百万 token 上下文——可以一次处理大量文档/代码，对深度研究场景直接有用
V4-Flash 高性价比——13B 激活参数，推理成本低，适合日常使用
MCP 泛化能力——DeepSeek-V4 在 MCPAtlas 表现好，对 OpenClaw 的 MCP 生态有利
vs MiMo-V2.5-Pro——我们昨天报告了 MiMo V2.5-Pro（$1/$3），DeepSeek-V4 是开源替代

评分

维度	评分 (1-10)	说明
架构创新	9	CSA+HCA+mHC+Muon，四重创新
性能	9	开源 SOTA，多项超过闭源
长上下文	10	1M token 原生，效率突破
效率	9	FLOPs 27%，KV cache 10%
开放性	10	完全开源，权重发布
与 Jay 的关联	9	中文最强 + 百万上下文 + MCP
总分	9.4	当前最强的开源大模型