DeepSeek-V4 — 百万 Token 上下文的高效 MoE 模型
> 一句话版本:DeepSeek 的第四代旗舰模型。V4-Pro 1.6T 参数(激活 49B),原生支持 100 万 token 上下文,长文本推理 FLOPs 仅为 V3.2 的 27%,KV cache 仅 10%。开源模型中新的 SOTA。
| 项目 | 信息 |
|---|---|
| 来源 | [DeepSeek-V4 论文 PDF](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf) |
| 公司 | DeepSeek-AI |
| 发布 | 2026-04-24 |
| 模型 | V4-Pro(1.6T / 49B 激活)+ V4-Flash(284B / 13B 激活) |
| 上下文 | **100 万 token** |
| 协议 | 开源(权重已发布) |
两个版本
| V4-Pro | V4-Flash | |
|---|---|---|
| 总参数 | 1.6T | 284B |
| 激活参数 | 49B | 13B |
| 训练数据 | 33T tokens | 32T tokens |
| 定位 | 旗舰 | 高性价比 |
| 1M 上下文 FLOPs(vs V3.2) | 27% | 10% |
| 1M 上下文 KV cache(vs V3.2) | 10% | 7% |
三大架构创新
1. 混合注意力:CSA + HCA
Compressed Sparse Attention (CSA):
- 每 m 个 token 的 KV 压缩为 1 个 entry
- 然后用 Lightning Indexer 做 top-k 稀疏选择
- 类似 DeepSeek Sparse Attention 但更高效
Heavily Compressed Attention (HCA):
- 更激进的压缩:每 m'(>> m)个 token 压缩为 1 个
- 保留密集注意力(不做稀疏选择)
- 极致节省 KV cache
两者交替使用(hybrid),再加上滑动窗口注意力保留局部精细依赖。
2. Manifold-Constrained Hyper-Connections (mHC)
升级传统残差连接:
- 残差映射矩阵 B 约束在双随机矩阵流形(Birkhoff polytope)上
- 谱范数 ≤ 1 → 非膨胀变换 → 数值稳定
- 参数动态生成(输入相关 + 静态偏置)
- Sinkhorn-Knopp 算法投影到约束流形
3. Muon 优化器
- 用于大部分模块(embedding/prediction head/RMSNorm 仍用 AdamW)
- 混合 Newton-Schulz 迭代做正交化(8 步快速收敛 + 2 步稳定化)
- 更快收敛 + 更好的训练稳定性
- RMSNorm 直接应用于 attention queries/KV entries → 避免 QK-Clip
其他技术细节
- DeepSeekMoE — 保留,微调:激活函数 Sigmoid → Sqrt(Softplus),初始层改用 Hash routing
- Multi-Token Prediction (MTP) — 保留 V3 配置不变
- FP4 量化 — MoE 专家权重和 indexer QK 路径用 FP4
- KV cache 混合精度 — RoPE 维度 BF16,其余 FP8(比纯 BF16 减半)
- On-Disk KV Cache — 异构 KV cache 结构 + 磁盘存储策略
后训练流程
两阶段范式:
1. 专家独立训练 — 对数学、代码、Agent、指令遵循分别训练专家(SFT + GRPO 强化学习)
2. 统一蒸馏 — 一个学生模型从所有专家老师学习(reverse KL loss)
推理力度模式:
- Non-Think → High → Max
- Max 模式用更长上下文 + 减少长度惩罚
Benchmark 性能(V4-Pro-Max)
知识
- SimpleQA / Chinese-SimpleQA:显著超过所有开源模型
- MMLU-Pro / HLE / GPQA:略微领先开源,仍落后 Gemini-3.1-Pro
推理
- 超过 GPT-5.2 和 Gemini-3.0-Pro
- 略低于 GPT-5.4 和 Gemini-3.1-Pro(落后约 3-6 个月)
- Codeforces 排名第 23(人类选手中)
- Putnam-2025 数学竞赛:120/120 满分
Agent
- 与 Kimi-K2.6、GLM-5.1 持平(开源最好)
- 略低于前沿闭源模型
- MCPAtlas / Toolathlon 表现优秀(MCP 服务泛化能力强)
长上下文
- MRCR(1M token 检索):超过 Gemini-3.1-Pro
- 128K 内稳定,128K-1M 缓慢下降但仍强
- CorpusQA(真实场景):超过 Gemini-3.1-Pro
V4-Flash
- 知识较弱(参数少)
- 推理给更大思考预算后接近 V4-Pro
- Agent 简单任务持平,复杂任务落后 V4-Pro
效率对比(1M token 上下文)
| 指标 | V4-Pro vs V3.2 | V4-Flash vs V3.2 |
|---|---|---|
| 单 token FLOPs | 27%(3.7× 低) | 10%(9.5× 低) |
| KV cache 大小 | 10%(9.8× 小) | 7%(13.7× 小) |
分析
优势:
- 🔥 百万 token 上下文原生支持——不是 hack,是架构级效率突破
- 🔥 开源 SOTA——开源模型中最强,多个维度超过闭源模型
- 🔥 极致效率——1M 上下文下 FLOPs 仅为前代的 27%
- 🔥 Putnam 120/120——数学推理到达新高度
- 🔥 FP4 量化——未来硬件上可额外提升 33% 效率
- 📊 两阶段后训练——专家独立训练 + 统一蒸馏,方法论创新
风险:
- ⚠️ 推理成本仍高——1.6T 参数即使激活 49B,推理成本不低
- ⚠️ 仍落后 Gemini-3.1-Pro 知识评估——差距在缩小但存在
- ⚠️ Agent 能力略低于闭源——K2.6/GLM-5.1 同级别
- 🟡 压缩注意力可能丢失细节——CSA/HCA 的信息损失
与 Jay 的关联:
- 🔥 OpenClaw 模型选择——V4-Pro 是中文最强开源模型,适合 researcher agent
- 百万 token 上下文——可以一次处理大量文档/代码,对深度研究场景直接有用
- V4-Flash 高性价比——13B 激活参数,推理成本低,适合日常使用
- MCP 泛化能力——DeepSeek-V4 在 MCPAtlas 表现好,对 OpenClaw 的 MCP 生态有利
- vs MiMo-V2.5-Pro——我们昨天报告了 MiMo V2.5-Pro($1/$3),DeepSeek-V4 是开源替代
评分
| 维度 | 评分 (1-10) | 说明 |
|---|---|---|
| 架构创新 | 9 | CSA+HCA+mHC+Muon,四重创新 |
| 性能 | 9 | 开源 SOTA,多项超过闭源 |
| 长上下文 | 10 | 1M token 原生,效率突破 |
| 效率 | 9 | FLOPs 27%,KV cache 10% |
| 开放性 | 10 | 完全开源,权重发布 |
| 与 Jay 的关联 | 9 | 中文最强 + 百万上下文 + MCP |
| **总分** | **9.4** | 当前最强的开源大模型 |