Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 笔记

概述

提出了一个专家混合网络。通过门控系统来确定不同专家系统的加权组合，以在不同的场景中激活不同的专家模块。

动机

神经网络吸收信息的能力受到参数量的限制，在理论上，有人提出了条件计算的方法，即网络的某些部分在每个实例都基础上处于活跃的状态。因此可以通过门控网络来显著地增加模型的容量。

方法

以上为门控网络，其通过 H(x) 来作为 Softmax 的承载的函数，其构造是输入 x dot 可训练的网络参数 Wg，在这个基础上加上平滑噪音以负载均衡，使得每个 Expert 都有被选择的空间。同时，使用了 Topk 确保了稀疏性。最后，使用 Softmax 计算权重。

posted @ 2024-10-14 14:02 EpicMoCN 阅读(167) 评论(0) 收藏举报

刷新页面返回顶部