| | | |

|

MoE

Mixture of expert

参考：http://mi.eng.cam.ac.uk/~mjfg/local/4F10/lect5a.pdf

法一优化最大似然

法二 EM

总优化函数为

我们要最大化它，最大化

Expert

第m个专家模型的优化函数为为似然乘以后验权重

gate

gate network的优化函数则为先验拟合后验(熵)，两者分布越接近，值越大

posterior

后验的计算

发表于 2019-06-10 11:17 zk-liu 阅读(152) 评论(0) 收藏举报

刷新页面返回顶部