Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 笔记
概述
提出了一个专家混合网络。通过门控系统来确定不同专家系统的加权组合,以在不同的场景中激活不同的专家模块。
动机
神经网络吸收信息的能力受到参数量的限制,在理论上,有人提出了条件计算的方法,即网络的某些部分在每个实例都基础上处于活跃的状态。因此可以通过门控网络来显著地增加模型的容量。
方法
以上为门控网络,其通过 H(x) 来作为 Softmax 的承载的函数,其构造是输入 x dot 可训练的网络参数 Wg,在这个基础上加上平滑噪音以负载均衡,使得每个 Expert 都有被选择的空间。同时,使用了 Topk 确保了稀疏性。最后,使用 Softmax 计算权重。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!