MoE 混合专家模型：核心知识笔记

Ruochen Chen2026年4月4日大约 3 分钟

MoE（Mixture of Experts，混合专家）是在大模型里用「多专家 + 路由」替代整块稠密 FFN 的一类架构。下面从线性层/FFN 基础讲到稠密瓶颈，再落到 MoE。

一、线性层与 FFN

由线性层 + 非线性激活（如 ReLU、Sigmoid、GELU 等）堆叠而成，可近似复杂函数，在 Transformer 里常被称为处理信息的「局部 MLP / 前馈块」。

概念	作用
Embedding	把离散 token 映射成稠密向量，语义相近往往在空间中距离更近，相当于「可学习的数字表示」
Attention	按上下文动态加权，融合前后文信息（如「爱」在不同语境含义不同），解决长程依赖与语境消歧

MoE 主要动的是 FFN 部分；注意力层可以是稠密，也可以与 MoE 组合，视具体模型而定。

稠密模型（Dense）：每一层、每一步大致激活全部参数。

把原来一整块大 FFN拆成多个小专家网络（experts）。各专家分工由训练学出来，通常不靠人工预先指定任务标签。

示例（量级仅作直观参考）：DeepSeek V3 类设计里可达 256 个专家 等规模（具体数字以论文/官方为准）。

总参数量可以很大（如笔记中举例 ~144.6B 量级），但每 token 实际参与计算的专家子集远小于全量（如 ~22.2B 激活量级，具体以官方披露为准）。
目标：在相近或更好效果下，降低单次推理的有效 FLOPs / 延迟，即「用更多参数换容量，用稀疏激活换单次成本」。

理解 MoE：FFN 变「多专家 + 路由 Top-K +（可选）共享专家」，在「总参数量」和「每步计算量」之间做折中。