LLM MoE RL 学习报告
LLM MoE RL 学习报告第一部分 深入理解 LLM MoE 的路由器机制1. 路由器的训练机制 路由器通常是一个怎样的网络结构?在 MoE 架构中,一部分 Decoder Layer 把原来的 FFN Layer 被替换为了 MoE Layer。MoE Layer 通常由一个路由器和多个专家组成。 路由器是一个前馈神经网络,通常有两种网络结构: 一层线性层 + softmax :词向量经过 attention 层和残差归一化后,进入路由器,假设每个输入 Token 的维度是 d_model,路由器下游有 N 个专家,那么路由器就做了一个 d_model -> N 的线性映射。之后再对维度为 N 的结果进行 softmax,每个维度分别对应该 Token 与每个专家的匹配度或权重。 用公式表示为,路由器内部有一个 d_model * N 大小的权重矩阵 W。输入 x 先与 W 进行矩阵乘法,得到 logits。$$logits = x * W$$之后再进行 softmax 得到最后的概率。$$probabilities =...


![北航2026软件工程作业 [I.1] 个人作业:阅读和提问](https://cdn.jsdelivr.net/gh/Justlovesmile/CDN2/post/cover4.jpg)
