Mixture of expert

参考:http://mi.eng.cam.ac.uk/~mjfg/local/4F10/lect5a.pdf

法一 优化最大似然

 法二 EM

总优化函数为

我们要最大化它,最大化

Expert

第m个专家模型的优化函数为为 似然乘以后验权重

gate

gate network的优化函数则为先验拟合后验(熵),两者分布越接近,值越大

posterior

后验的计算