lucky-sheltered-boy's Blog

Created2025-08-23|大语言模型

LLM MoE RL 学习报告第一部分深入理解 LLM MoE 的路由器机制1. 路由器的训练机制路由器通常是一个怎样的网络结构？在 MoE 架构中，一部分 Decoder Layer 把原来的 FFN Layer 被替换为了 MoE Layer。MoE Layer 通常由一个路由器和多个专家组成。路由器是一个前馈神经网络，通常有两种网络结构：一层线性层 + softmax ：词向量经过 attention 层和残差归一化后，进入路由器，假设每个输入 Token 的维度是 d_model，路由器下游有 N 个专家，那么路由器就做了一个 d_model -> N 的线性映射。之后再对维度为 N 的结果进行 softmax，每个维度分别对应该 Token 与每个专家的匹配度或权重。用公式表示为，路由器内部有一个 d_model * N 大小的权重矩阵 W。输入 x 先与 W 进行矩阵乘法，得到 logits。$$logits = x * W$$之后再进行 softmax 得到最后的概率。$$probabilities =...