解读 DeepSeek V4

1724 字
9 分钟
解读 DeepSeek V4

引言#

2026年5月,DeepSeek-AI 发布了 DeepSeek-V4 系列的预览版本。这一代最引人注目的突破是:首次在开放模型中原生支持百万 token 上下文,且效率相比前代大幅提升。

两个模型规格:

  • V4-Pro:1.6T 参数,49B 激活
  • V4-Flash:284B 参数,13B 激活

在 1M-token 场景下,V4-Pro 仅需 V3.2 的 27% FLOPs10% KV cache;V4-Flash 更激进,仅需 10% FLOPs7% KV cache。这背后的核心创新是一套精心设计的混合注意力架构。

架构创新:打破长上下文的效率瓶颈#

传统 Transformer 的注意力机制是 O(n2)O(n^2) 复杂度 [Vaswani et al., 2017],当上下文扩展到百万 token 时,计算和存储成本变得难以承受。DeepSeek-V4 的解决方案是 CSA + HCA 混合注意力

Compressed Sparse Attention (CSA)#

CSA 的思路是”先压缩再稀疏”:

  1. 将每 mm 个 token 的 KV cache 压缩为一个 entry(m=4m=4
  2. 用 Lightning Indexer 选出 top-k 相关的压缩 KV entry
  3. 只对选中的 entry 做 sparse attention

这借鉴了 DeepSeek Sparse Attention (DSA) [DeepSeek-AI, 2025] 的稀疏选择策略,但在其之前加入了序列维度的压缩,进一步降低 KV cache 体积。

Heavily Compressed Attention (HCA)#

HCA 采用更激进的压缩率(m=128m'=128),但不做稀疏选择。它适合那些需要”粗粒度全局视野”的场景——虽然压缩重,但保持了 dense attention 的完整覆盖。

两种注意力交替使用,并配合一个小的滑动窗口注意力(128 tokens)保留局部细粒度信息。这套设计让 1M-token 成为工程上可行的日常支持能力。

其他架构细节#

  • KV cache 精度优化:RoPE 维度用 BF16,其他用 FP8,体积减半
  • Lightning Indexer 用 FP4:极长上下文下加速 attention score 计算
  • Attention Sink [Xiao et al., 2024]:防止注意力分数塌陷,让模型能”拒绝”关注不相关的 token

mHC:更稳定的残差连接#

残差连接是 Transformer 的标配,但在深层网络中容易出现数值不稳定。Hyper-Connections (HC) [Zhu et al., 2025] 曾尝试扩展残差流宽度来增强表达力,但训练稳定性仍是问题。

DeepSeek-V4 提出 Manifold-Constrained Hyper-Connections (mHC) [Xie et al., 2026]:

  • 将残差映射矩阵约束到 doubly stochastic matrices manifold(Birkhoff polytope)
  • 这保证谱范数 B21\|B\|_2 \leq 1,使变换非扩张
  • 使用 Sinkhorn-Knopp 算法投影,20 次迭代

同时引入动态参数化(input-dependent + static component),让模型能根据输入自适应调节残差强度。最终 wall-time overhead 仅 6.7%,代价很小。

Muon 优化器:更快收敛#

Muon [Jordan et al., 2024; Liu et al., 2025] 是 DeepSeek-V4 的另一重要改进。它用 Newton-Schulz 迭代对梯度矩阵做正交化,能更快收敛、更稳定训练。

DeepSeek-V4 对 Muon 做了两点调整:

  1. Hybrid Newton-Schulz:10 次迭代分两阶段——前 8 步用激进系数快速收敛,后 2 步用稳定系数精确控制
  2. ZeRO 兼容:dense 参数用背包算法分配,MoE 参数 flatten 后均匀分布

Embedding、prediction head、RMSNorm 仍用 AdamW [Loshchilov & Hutter, 2017],其余模块用 Muon。

训练稳定性:两个实用技巧#

训练万亿参数的 MoE 模型,loss spike 是常见噩梦。DeepSeek-V4 发现 spike 总与 MoE layer 的 outliers 相关,路由机制本身会加剧问题。两个技巧解决了这个困扰:

Anticipatory Routing#

传统路由与主干网络同步更新,会形成恶性循环。Anticipatory Routing 让路由索引用历史参数 θtΔt\theta_{t-\Delta t} 预计算,当前步直接使用。当检测到 spike 时自动激活,稳定后恢复常规训练。

SwiGLU Clamping#

[OpenAI, 2025; Riviere et al., 2024] 曾用 clamping 约束数值范围。DeepSeek-V4 将 SwiGLU 的 linear component clamp 到 [-10, 10],gate component 上界 10。简单粗暴,但有效消除 outliers。

基础设施栈#

除了架构,DeepSeek-V4 还做了一系列系统优化:

通信-计算重叠的 Expert Parallelism#

MoE 的 Expert Parallelism (EP) 需要大量 all-to-all 通信。DeepSeek-V4 将 Dispatch、Linear-1、Linear-2、Combine 四阶段融合为单一流水线 kernel,把 expert 分成多个 wave,细粒度重叠通信与计算。这样通信延迟被完全隐藏在计算中,提速 1.5-1.96x。开源为 MegaMoE

类似思路在 Comet [Zhang et al., 2025] 中有探索,但 DeepSeek-V4 的 wave scheduling 更细粒度。

TileLang DSL#

用 TileLang [Wang et al., 2026] 开发 fused kernel,替代数百个细粒分 Torch ATen operators。亮点:

  • Host Codegen:CPU orchestration overhead 从几十 μs 降到 <1μs
  • Z3 SMT Solver:形式化分析整数表达式,解锁更多优化机会
  • Bitwise reproducibility:确保训练与推理的一致性

FP4 Quantization-Aware Training#

MoE expert weights 和 CSA indexer QK path 使用 MXFP4 [Rouhani et al., 2023] quantization。关键洞察:FP4→FP8 dequantization 是 lossless 的(FP8 的 E4M3 比 FP4 的 E2M1 多 2 位 exponent)。这让 QAT 能完全复用 FP8 训练框架,无需修改 backward pipeline。

其他细节#

  • Batch-invariant kernel:避免 split-KV/split-k 的非确定性,用 DeepGEMM [Zhao et al., 2025] 替代 cuBLAS
  • KV cache 管理框架:异构 entries(CSA/HCA/SWA)+ 状态 cache + 磁盘存储策略
  • DSec Sandbox:四种执行 substrate(Function Call/Container/microVM/fullVM),支撑 agentic AI 的多样化需求

预训练与后训练#

预训练数据与配置#

32T+ tokens,数学和编程 corpus 是核心,增强多语言和长文档数据。训练从 4K 序列长度逐步扩展到 1M。Sparse attention 在 64K 阶段引入,先 warmup lightning indexer,再全面 sparse 训练。

后训练:Specialist + OPD 范式#

不再用 mixed RL,改用 On-Policy Distillation (OPD) [Lu & Lab, 2025]:

  1. 每个领域(数学、编程、Agent、指令遵循)独立训练专家:SFT → GRPO RL
  2. 多教师蒸馏统一模型,full-vocabulary logit distillation(非 token-level KL estimate)

三种 reasoning mode:Non-think(快速响应)、Think(有意识分析)、Think Max(极致推理)。

Generative Reward Model (GRM):让 actor native 作为 reward model,联合优化生成和评估能力,减少人工标注需求。

评估结果#

基础模型#

V4-Flash-Base(13B activated)在大多数 benchmark 上超越 V3.2-Base(37B activated),证明架构改进和数据质量的优势。V4-Pro-Base 进一步刷新 DeepSeek 基础模型的各项记录。

后训练模型#

  • Knowledge:SimpleQA Verified 57.9%,大幅领先开源对手,接近 Gemini-3.1-Pro
  • Reasoning:Codeforces rating 3206(人类排名第 23),首次开源模型匹敌闭源模型
  • 1M-Context:MRCR 83.5,超越 Gemini-3.1-Pro 的 76.3
  • Agent:Terminal Bench 2.0 67.9%,SWE Verified 80.6%

结语#

DeepSeek-V4 的核心贡献是让百万 token 上下文从”研究原型”变成”工程可行”。CSA + HCA 混合注意力是关键突破,配合 mHC、Muon 和完整的系统栈,构成了一个可量产的方案。

展望未来,DeepSeek 表示将简化架构、深入研究训练稳定性原理、探索新维度的稀疏性、迭代长程 agentic 任务、集成多模态能力。这个方向值得持续关注。

模型下载https://huggingface.co/collections/deepseek-ai/deepseek-v4


参考文献#

  • Vaswani et al., 2017. Attention is all you need.
  • DeepSeek-AI, 2025. DeepSeek-R1 / DeepSeek Sparse Attention.
  • Xiao et al., 2024. Efficient streaming language models with attention sinks.
  • Zhu et al., 2025. Hyper-Connections.
  • Xie et al., 2026. Manifold-Constrained Hyper-Connections (mHC).
  • Jordan et al., 2024; Liu et al., 2025. Muon optimizer.
  • Loshchilov & Hutter, 2017. AdamW.
  • OpenAI, 2025. GPT-OSS model card.
  • Riviere et al., 2024. Gemma 2.
  • Zhang et al., 2025. Comet: Fine-grained computation-communication overlapping for MoE.
  • Wang et al., 2026. TileLang.
  • Rouhani et al., 2023. Microscaling data formats (MXFP4).
  • Zhao et al., 2025. DeepGEMM.
  • Lu & Lab, 2025. On-Policy Distillation.

支持与分享

如果这篇文章对你有帮助,欢迎分享给更多人或赞助支持!

赞助
解读 DeepSeek V4
https://llm-tech.com.cn/posts/deepseek-v4/
作者
Ming
发布于
2026-05-05
许可协议
CC BY-NC-SA 4.0
Profile Image of the Author
Ming
你是来找 Ming 学习的吗
🎉 欢迎来到 Ming 的博客
这里是我的个人博客,分享 AI Infra、LLM 等技术内容。欢迎关注交流!
分类
标签
站点统计
文章
19
分类
6
标签
12
总字数
69,591
运行时长
0
最后活动
0 天前

目录