DeepSeek V3 技术解析

DeepSeek-V3: 671B 参数的 MoE 大模型，训练效率与性能的双重突破

1. 模型概览

┌─────────────────────────────────────────────────────────────┐
│                     DeepSeek V3 关键数据                       │
├─────────────────────────────────────────────────────────────┤
│  总参数量          │  671B (6710 亿)                        │
│  激活参数          │  37B (仅 5.5%)                         │
│  层数              │  61 层                                  │
│  隐藏维度          │  7168                                   │
│  Attention         │  Multi-head Latent Attention (MLA)      │
│  FFN              │  DeepSeekMoE (细粒度 + 共享专家)        │
│  专家数            │  256 个专家 (每个 FFN 层)               │
│  激活专家数        │  8 个专家 / 每 token                    │
│  上下文长度        │  128K                                   │
│  训练tokens        │  14.8T                                  │
│  训练成本          │  ~278 万 H800 GPU 小时                   │
│  发布时间          │  2024 年 12 月                          │
└─────────────────────────────────────────────────────────────┘

2. 整体架构图

mermaid

graph TB
    subgraph Input["输入层"]
        InputTokens["Token 输入"]
        Embedding["Embedding Layer<br/>7168 维度"]
    end

    subgraph Transformer["61 层 Transformer Block"]
        direction TB
        
        block1["Block 1"]
        block2["Block 2"]
        blockN["Block N"]
        
        block1 --> block2
        block2 --> blockN
    end

    subgraph Output["输出层"]
        Norm["RMSNorm"]
        LMHead["LM Head<br/>Vocab 128K"]
        OutputTokens["Token 输出"]
    end

    InputTokens --> Embedding
    Embedding --> block1
    blockN --> Norm
    Norm --> LMHead
    LMHead --> OutputTokens
    
    style Input fill:#e1f5fe
    style Output fill:#fff3e0
    style Transformer fill:#f3e5f5

3. Transformer Block 内部结构

mermaid

graph TD
    subgraph Block["Transformer Block 结构"]
        direction TB
        
        Input["Input Hidden States<br/>(batch, seq, 7168)"]
        
        subgraph MLA["Multi-head Latent Attention"]
            direction LR
            Q_Linear["Q Up proj<br/>7168 → 7168"]
            Q_Down["Q Down proj<br/>7168 → 7168"]
            KVCache["KV Cache<br/>(Latent Compression)"]
            Attention["Attention计算"]
        end
        
        Add1["+"]
        Norm1["RMSNorm"]
        
        subgraph FFN["DeepSeekMoE FFN"]
            direction LR
            Expert1["Expert 1"]
            Expert2["Expert 2"]
            Expert256["Expert 256"]
            Router["Router"]
            SharedExp["Shared Experts<br/>(8个始终激活)"]
            TopK["Top-K Selection<br/>(K=8)"]
        end
        
        Add2["+"]
        Norm2["RMSNorm"]
        Output["Output Hidden States"]
        
        Input --> MLA
        MLA --> Add1
        Add1 --> Norm1
        Norm1 --> FFN
        FFN --> Add2
        Add2 --> Norm2
        Norm2 --> Output
        
        Router --> TopK
        TopK --> Expert1
        TopK --> Expert2
        TopK -.-> Expert256
        
        Expert1 --> SharedExp
        Expert2 --> SharedExp
        Expert256 --> SharedExp
        SharedExp --> Add2
    end
    
    style Input fill:#bbdefb
    style Output fill:#c8e6c9
    style MLA fill:#e1f5fe
    style FFN fill:#fff3e0

4. MLA (Multi-head Latent Attention) 详解

4.1 为什么需要 MLA

标准 MHA/GQA 的问题：

KV Cache 显存占用大
推理时延迟高

MLA 核心思想：对 KV 做低秩压缩，减少 KV Cache 显存

mermaid

graph LR
    subgraph MHA["标准 MHA (以 LLaMA 7B 为例)"]
        direction TB
        Q1["Q: 32 heads × 128 dim"]
        K1["K: 32 heads × 128 dim"]
        V1["V: 32 heads × 128 dim"]
        KV1["KV Cache 需求大"]
    end

    subgraph MLA["MLA (DeepSeek V3)"]
        direction TB
        Q2["Q: 8 heads × 128 dim<br/>(压缩后)"]
        Kcompress["K 压缩 → Latent K"]
        Vcompress["V 压缩 → Latent V"]
        KV2["KV Cache 需求小<br/>(低秩分解)"]
    end
    
    Q1 --> KV1
    K1 --> KV1
    V1 --> KV1
    
    Q2 --> KV2
    Kcompress --> KV2
    Vcompress --> KV2
    
    style MHA fill:#ffebee
    style MLA fill:#e8f5e9

4.2 MLA 公式

python

# MLA 核心实现
class MultiHeadLatentAttention(nn.Module):
    def __init__(self):
        super().__init__()
        self.num_heads = 8
        self.head_dim = 128
        self.hidden_dim = 7168
        
        # 低秩压缩维度
        self.latent_dim = 512  # 远小于 7168
        
        # Q 的压缩
        self.q_a = nn.Linear(self.hidden_dim, self.latent_dim)
        self.q_b = nn.Linear(self.latent_dim, self.num_heads * self.head_dim)
        
        # KV 的低秩压缩 (关键创新!)
        self.kv_a = nn.Linear(self.hidden_dim, self.latent_dim)  # 共享压缩
        self.kv_b = nn.Linear(self.latent_dim, 2 * self.num_heads * self.head_dim)
        
        # 输出投影
        self.o = nn.Linear(self.num_heads * self.head_dim, self.hidden_dim)
    
    def forward(self, x):
        # Q: 标准投影 + 低秩
        q = self.q_b(self.q_a(x))  # (batch, seq, num_heads * head_dim)
        
        # KV: 共享低秩压缩 (关键!)
        # 推理时只需要缓存 latent_kv, 不需要缓存完整的 K, V
        kv = self.kv_b(self.kv_a(x))  # (batch, seq, 2 * num_heads * head_dim)
        k, v = kv.chunk(2, dim=-1)
        
        # Attention 计算
        # ... (标准 attention)
        
        return self.o(attn_output)

4.3 MLA vs 其他 Attention 对比

┌─────────────────────────────────────────────────────────────┐
│                    Attention 机制对比                          │
├───────────┬────────────┬──────────────┬──────────────────────┤
│   类型     │  KV Cache │  压缩效果    │  代表模型            │
├───────────┼────────────┼──────────────┼──────────────────────┤
│  MHA      │  2×h×d×L  │  无          │  GPT-2, CLIP        │
│  MQA      │  2×d×L     │  h 倍        │  PaLM, Falcon       │
│  GQA      │  2×g×d×L   │  h/g 倍      │  LLaMA 2, Mistral   │
│  MLA      │  2×d_c×L   │  显著压缩    │  DeepSeek V2/V3     │
└───────────┴────────────┴──────────────┴──────────────────────┘

假设: h=8, d=128, g=4, d_c=512, L=4096

MHA:  2 × 8 × 128 × 4096 = 8.4 MB/token
GQA:  2 × 4 × 128 × 4096 = 4.2 MB/token
MLA:  2 × 512 × 4096 = 4.2 MB/token (与 GQA 相当，但 Q 也压缩)

MLA 额外优势: Q 也做了压缩，训练时计算量更少

5. DeepSeekMoE 详解

5.1 架构对比

mermaid

graph TD
    subgraph StandardMoE["标准 MoE (如 Mixtral)"]
        direction TB
        Input1["Input"]
        Router1["Router → Top-2"]
        E1["Expert 1"]
        E2["Expert 2"]
        E3["Expert 3"]
        E4["Expert 4"]
        Out1["Output"]
        
        Input1 --> Router1
        Router1 --> E1
        Router1 --> E2
        E1 --> Out1
        E2 --> Out1
    end

    subgraph DeepSeekMoE["DeepSeekMoE (细粒度 + 共享)"]
        direction TB
        Input2["Input"]
        Router2["Router → Top-8"]
        E_1["e₁"]
        E_2["e₂"]
        E_3["e₃"]
        E_4["e₄"]
        E_5["e₅"]
        E_256["e₂₅₆"]
        Shared["Shared Experts<br/>(始终激活)"]
        Combine["加权求和"]
        Out2["Output"]
        
        Input2 --> Router2
        Router2 --> E_1
        Router2 --> E_2
        Router2 -.-> E_256
        Router2 --> Shared
        E_1 --> Combine
        E_2 --> Combine
        E_256 --> Combine
        Shared --> Combine
        Combine --> Out2
    end
    
    style StandardMoE fill:#fff8e1
    style DeepSeekMoE fill:#e8f5e9

5.2 核心公式

python

class DeepSeekMoE(nn.Module):
    def __init__(self):
        self.num_experts = 256      # 细粒度专家数
        self.top_k = 8              # 激活 8 个专家
        self.shared_experts = 8     # 共享专家数
        self.hidden_dim = 7168
        
        # 细粒度专家
        self.experts = nn.ModuleList([
            nn.Linear(self.hidden_dim, self.hidden_dim // 4)  # 专家粒度更细
            for _ in range(self.num_experts)
        ])
        
        # 共享专家 (始终激活)
        self.shared_experts = nn.ModuleList([
            nn.Linear(self.hidden_dim, self.hidden_dim)
            for _ in range(self.shared_experts)
        ])
        
        # 路由器
        self.router = nn.Linear(self.hidden_dim, self.num_experts)
    
    def forward(self, x):
        B, T, D = x.shape
        
        # 1. 路由器计算
        gate_logits = self.router(x)  # (B, T, num_experts)
        weights = F.softmax(gate_logits, dim=-1)
        
        # 2. Top-K 选择
        top_weights, top_indices = torch.topk(weights, self.top_k, dim=-1)
        top_weights = top_weights / top_weights.sum(dim=-1, keepdim=True)  # 归一化
        
        # 3. 细粒度专家计算
        output = torch.zeros_like(x)
        for i in range(self.top_k):
            expert_idx = top_indices[:, :, i]  # (B, T)
            expert_weight = top_weights[:, :, i].unsqueeze(-1)  # (B, T, 1)
            
            # 获取专家
            expert_out = self.experts[expert_idx](x)  # 选择对应的专家
            output += expert_out * expert_weight
        
        # 4. 共享专家 (始终参与，计算量增加但表达能力强)
        shared_output = sum(exp(x) for exp in self.shared_experts)
        
        return output + shared_output

5.3 无辅助损失的负载均衡

传统 MoE 问题：需要额外的 Auxiliary Loss 来平衡专家负载，导致主目标被干扰。

DeepSeek 的解决方案：

python

class NoAuxLossLoadBalancer(nn.Module):
    """
    DeepSeek-V3 的无辅助损失负载均衡
    
    核心思想：不用辅助损失，而是通过以下方式：
    1. Expert-Level Balance Loss (EB)
    2. Router-Level Balance Loss (RB)
    3. 专家选择时的噪声（温度采样）
    """
    
    def __init__(self, num_experts, beta=0.001):
        self.beta = beta  # 平衡因子
        
    def forward(self, gate_logits, top_indices, top_weights):
        """
        gate_logits: 路由器输出 (B*T, num_experts)
        top_indices: 被选中的专家索引 (B*T, top_k)
        top_weights: 被选中的权重 (B*T, top_k)
        """
        # 1. Expert Bias (不是 Auxiliary Loss!)
        # 为被选中次数少于平均的专家添加 bias
        # bias 只影响路由选择，不影响主损失
        
        # 2. 路由器层面的平衡
        # 如果某个专家被连续选中，降低其被选中概率
        
        # 3. 总结：EB + RB 代替 Auxiliary Loss
        # 不直接惩罚负载不均衡，而是通过偏置调整
        
        return balance_loss

5.4 节点级限制路由

python

class NodeLimitedRouter(nn.Module):
    """
    节点级限制 (Node-Limited Routing)
    
    目的：减少跨节点通信开销
    
    原理：
    - 每个节点有多个 GPU
    - 限制每个 token 最多被路由到 N 个节点
    - 每个节点内部选择 Top-K 专家
    """
    
    def __init__(self, num_nodes=1, experts_per_node=32, top_k=8):
        self.num_nodes = num_nodes
        self.experts_per_node = experts_per_node
        self.top_k = top_k
        self.top_k_per_node = min(top_k, experts_per_node)
    
    def forward(self, x, expert_to_node_mapping):
        """
        expert_to_node_mapping: 专家到节点的映射
        """
        # 1. 计算每个节点的总分数
        node_scores = torch.zeros(x.shape[0], self.num_nodes)
        
        for node_id in range(self.num_nodes):
            expert_ids = expert_to_node_mapping[node_id]
            node_scores[:, node_id] = gate_logits[:, expert_ids].sum(dim=-1)
        
        # 2. 选择 Top-N 节点
        top_nodes = torch.topk(node_scores, k=2).indices  # 选 2 个节点
        
        # 3. 在每个选中的节点内选专家
        # ... (后续处理)

6. 训练基础设施

6.1 并行策略

mermaid

graph TB
    subgraph EP["Expert Parallelism (EP)"]
        direction TB
        GPU1["GPU 0-7<br/>(EP=8)"]
        GPU2["GPU 8-15<br/>(EP=8)"]
        GPU3["GPU 16-23<br/>(EP=8)"]
        GPU4["GPU 24-31<br/>(EP=8)"]
        
        GPU1 <-->|"All-to-All<br/>通信"| GPU2
        GPU1 <-->|"All-to-All<br/>通信"| GPU3
        GPU1 <-->|"All-to-All<br/>通信"| GPU4
    end

    subgraph PP["Pipeline Parallelism (PP=16)"]
        S1["Stage 1"]
        S2["Stage 2"]
        S3["Stage 3"]
        S16["Stage 16"]
        S1 --> S2
        S2 --> S3
        S3 --> S16
    end

    subgraph TP["Tensor Parallelism (TP=8)"]
        T1["Tensor 0"]
        T2["Tensor 1"]
        T8["Tensor 7"]
        T1 <-->|"AllReduce"| T2
        T2 <-->|"AllReduce"| T8
    end
    
    style EP fill:#e3f2fd
    style PP fill:#fff3e0
    style TP fill:#f3e5f5

6.2 FP8 训练

python

# DeepSeek V3 使用 FP8 训练，大幅减少显存和计算量

class FP8Linear(nn.Module):
    """
    FP8 量化实现
    E4M3 用于前向，E5M2 用于梯度
    """
    
    def __init__(self, in_features, out_features):
        super().__init__()
        self.weight = nn.Parameter(
            torch.randn(out_features, in_features)
        )
    
    def forward(self, x):
        # FP8 量化
        x_fp8 = to_fp8(x, format='E4M3')
        weight_fp8 = to_fp8(self.weight, format='E4M3')
        
        # 计算
        out = F.linear(x_fp8, weight_fp8)
        
        return out


# FP8 vs BF16 对比
"""
DeepSeek V3 训练配置:
- 装备: 2048 × H800 (NVLink, 带宽 400 GB/s)
- 训练 tokens: 14.8T
- 总 GPU 小时: 278 万 H800 GPU hours

对比同规模 Dense 模型:
- Dense 671B 需要: ~2000 TB/s 带宽
- MoE 671B 需要: ~200 TB/s 带宽 (因为稀疏激活)

FP8 节省:
- 显存减少: ~40%
- 计算速度提升: ~1.5x
"""

6.3 DualPipe 管线并行

mermaid

graph LR
    subgraph Old["传统 Pipeline (PP=8)"]
        direction TB
        P1["P0 → P1 → P2 → P3 → P4 → P5 → P6 → P7"]
        Wait1["Bubble: ████████████░░░░░░░░░"]
    end

    subgraph New["DualPipe (双向流水线)"]
        direction TB
        Forward["Forward: P0→P1→P2→P3→P4→P5→P6→P7"]
        Backward["Backward: P7→P6→P5→P4→P3→P2→P1→P0"]
        Overlap["计算与通信 overlap"]
    end
    
    style Old fill:#ffebee
    style New fill:#e8f5e9

7. 性能对比

7.1 基准测试

┌─────────────────────────────────────────────────────────────┐
│                    主流模型性能对比                            │
├──────────────┬────────┬────────┬────────┬────────┬─────────┤
│   Benchmark   │ GPT-4o│Claude3.5│ LLaMA3│DeepSeek│  说明   │
│              │       │ Sonnet │ 70B   │  V3   │         │
├──────────────┼────────┼────────┼────────┼────────┼─────────┤
│  MMLU        │ 88.7  │  87.0  │ 86.0  │ 88.5  │ 知识理解│
│  MATH        │ 76.6  │  78.3  │ 68.0  │ 79.8  │ 数学推理│
│  HumanEval   │ 90.2  │  92.0  │ 81.0  │ 92.0  │ 代码生成│
│  GPQA Diamond│ 83.3  │  81.0  │ 71.0  │ 83.1  │ 博士水平│
│  AIME 2024   │ 9.3   │  16.0  │ 14.0  │ 47.0  │ 数学竞赛│
├──────────────┼────────┼────────┼────────┼────────┼─────────┤
│  MMLU-Pro    │ 72.6  │  73.6  │ 65.0  │ 75.9  │ 强化MMLU│
│  LiveCodeBench│ 53.6 │  70.0  │ 55.0  │ 71.4  │ 最新代码│
│  SimpleBench  │ 82.4  │  86.0  │ 75.0  │ 86.5  │ 指令跟随│
└──────────────┴────────┴────────┴────────┴────────┴─────────┘

7.2 训练效率

DeepSeek V3 训练成本分析:

┌─────────────────────────────────────────────────────────────┐
│  GPU: 2048 × H800 (80GB HBM3, NVLink 400 GB/s)           │
│  训练 Tokens: 14.8T                                         │
│  总 GPU 小时: 278 万 H800 GPU hours                         │
│  估算成本: ~$600 万 (按 $2/GPU-hour)                        │
└─────────────────────────────────────────────────────────────┘

对比:
- GPT-4 训练: 估算 ~$100M+
- Claude 3: 估算 ~$50M+
- DeepSeek V3: ~$6M (开源开放的代价)

训练效率提升:
- 相比上一代 DeepSeek V2: 训练效率 2.3x 提升
- 通过 FP8、DualPipe、负载均衡优化实现

7.3 与其他 MoE 模型对比

┌─────────────────────────────────────────────────────────────┐
│                 MoE 模型参数量对比                            │
├──────────────┬─────────┬──────────┬────────┬──────────────┤
│     模型       │ 总参数量 │ 激活参数  │ 专家数 │  Top-K       │
├──────────────┼─────────┼──────────┼────────┼──────────────┤
│  GPT-4       │  ~1.8T  │  ~220B   │   ?    │    ?         │
│  Mixtral 8×7B│   46.7B │   12.9B  │    8   │    2         │
│  DBRX        │   132B  │   36B    │   16   │    4         │
│  DeepSeek V2 │   236B  │   21B    │  160   │    6         │
│  DeepSeek V3 │   671B  │   37B    │  256   │    8         │
├──────────────┼─────────┼──────────┼────────┼──────────────┤
│  LLaMA 3 70B │   70B   │   70B    │   -    │  Dense       │
└──────────────┴─────────┴──────────┴────────┴──────────────┘

DeepSeek V3 的稀疏性:
- 激活比: 37B / 671B = 5.5%
- 训练和推理的计算量只相当于 37B Dense 模型

8. 核心技术亮点总结

mermaid

mindmap
  root((DeepSeek V3))
    Architecture
      MoE Architecture
        256 Experts
        Top-8 Activation
        8 Shared Experts
        Fine-grained MoE
      MLA Attention
        Low-rank KV Compression
        Reduced KV Cache
        Shared K/V Projection
    Training
      FP8 Training
        E4M3 Forward
        E5M2 Backward
      DualPipe
        Bidirectional Pipeline
        Overlapped Compute
      No Auxiliary Loss
        Expert Balance
        Router Balance
      14.8T Tokens
        278 GPU-years
        $6M Cost
    Inference
      MTP Decoding
        Multi-Token Prediction
        Speculative Decoding
      Edge Deployment
        Small Footprint
        High Efficiency

9. 关键技术创新总结

创新点	解决的问题	实现方式
MLA	KV Cache 显存大、推理慢	低秩压缩 KV，共享映射
DeepSeekMoE	专家粒度粗，表达能力弱	256 细粒度专家 + 8 共享专家
无辅助损失	辅助损失干扰主目标	Expert Bias + Router Balance
节点级限制	跨节点通信开销大	限制每个 token 最多路由到 2 个节点
FP8 训练	BF16 显存和计算开销大	E4M3 前向 + E5M2 反向
DualPipe	Pipeline 气泡多	双向流水线，计算通信 overlap
MTP	单 token 生成延迟高	Multi-Token Prediction 投机解码

10. 面试高频问题

Q1: DeepSeek V3 的 MoE 和 Mixtral 有什么区别？

Mixtral:
- 8 个专家，Top-2 激活
- 专家是标准的 FFN
- 有 Auxiliary Loss 平衡负载

DeepSeek V3:
- 256 个专家，Top-8 激活
- 细粒度专家分割 (每个专家更小)
- 8 个共享专家 (始终激活，捕获共性知识)
- 无辅助损失负载均衡
- 节点级限制路由

Q2: MLA 为什么能省 KV Cache？

标准 MHA/GQA:
- 需要存储完整的 K 和 V
- 存储量 = 2 × num_kv_heads × head_dim × seq_len

MLA:
- K 和 V 先投影到低维空间 (latent_dim = 512)
- 推理时只存储 latent K/V
- 存储量 = 2 × latent_dim × seq_len
- Q 也做了压缩，训练时计算量更少

Q3: 无辅助损失怎么平衡专家负载？

传统 Auxiliary Loss:
- L_aux = α × Σ|f_i - 1/N| + β × Σ|g_j - 1/K|
- 直接惩罚负载不均衡
- 问题：干扰主损失函数

DeepSeek V3 的方法:
1. Expert Bias: 为选中次数少于平均的专家加 bias
2. Router Balance: Router 层面做平衡
3. 温度采样: 路由器输出加噪声

本质：不是惩罚，而是引导，所以不干扰主目标

Q4: DeepSeek V3 训练成本为什么这么低？

关键因素:
1. MoE 稀疏激活: 671B 参数但只激活 37B
2. FP8 训练: 显存减少 40%，速度提升 1.5x
3. DualPipe: 减少 pipeline 气泡
4. 优化器改进: AdamW + 梯度压缩
5. 硬件利用率: NVLink 高速互联，EP 并行优化

估算:
- Dense 671B 训练: ~10x 计算量
- DeepSeek V3 MoE: ~2x 计算量 (相对 37B Dense)

Q5: MTP (Multi-Token Prediction) 是什么？

标准: 一次只预测 1 个 token
MTP: 一次预测多个 token (如 2-3 个)

实现:
1. 主模型同时预测第 1, 2, 3 个 token
2. 用小模型 / 辅助头来预测
3. 训练时多目标学习
4. 推理时可以做投机解码

效果:
- 推理速度: 1.8x-2.4x 提升
- 延迟: 降低 30-40%

11. 参考资源

文档版本: v1.0 | 更新日期: 2024-12

DeepSeek V3 技术解析 ​

1. 模型概览 ​

2. 整体架构图 ​

3. Transformer Block 内部结构 ​

4. MLA (Multi-head Latent Attention) 详解 ​

4.1 为什么需要 MLA ​

4.2 MLA 公式 ​

4.3 MLA vs 其他 Attention 对比 ​

5. DeepSeekMoE 详解 ​

5.1 架构对比 ​

5.2 核心公式 ​

5.3 无辅助损失的负载均衡 ​

5.4 节点级限制路由 ​

6. 训练基础设施 ​

6.1 并行策略 ​

6.2 FP8 训练 ​

6.3 DualPipe 管线并行 ​

7. 性能对比 ​

7.1 基准测试 ​

7.2 训练效率 ​

7.3 与其他 MoE 模型对比 ​

8. 核心技术亮点总结 ​

9. 关键技术创新总结 ​

10. 面试高频问题 ​

Q1: DeepSeek V3 的 MoE 和 Mixtral 有什么区别？ ​

Q2: MLA 为什么能省 KV Cache？ ​

Q3: 无辅助损失怎么平衡专家负载？ ​

Q4: DeepSeek V3 训练成本为什么这么低？ ​

Q5: MTP (Multi-Token Prediction) 是什么？ ​

11. 参考资源 ​

DeepSeek V3 技术解析

1. 模型概览

2. 整体架构图

3. Transformer Block 内部结构

4. MLA (Multi-head Latent Attention) 详解

4.1 为什么需要 MLA

4.2 MLA 公式

4.3 MLA vs 其他 Attention 对比

5. DeepSeekMoE 详解

5.1 架构对比

5.2 核心公式

5.3 无辅助损失的负载均衡

5.4 节点级限制路由

6. 训练基础设施

6.1 并行策略

6.2 FP8 训练

6.3 DualPipe 管线并行

7. 性能对比

7.1 基准测试

7.2 训练效率

7.3 与其他 MoE 模型对比

8. 核心技术亮点总结

9. 关键技术创新总结

10. 面试高频问题

Q1: DeepSeek V3 的 MoE 和 Mixtral 有什么区别？

Q2: MLA 为什么能省 KV Cache？

Q3: 无辅助损失怎么平衡专家负载？

Q4: DeepSeek V3 训练成本为什么这么低？

Q5: MTP (Multi-Token Prediction) 是什么？

11. 参考资源