02 2019 档案
摘要:https://www.jianshu.com/p/25fc600de9fb 谷歌最近的一篇BERT取得了卓越的效果,为了研究BERT的论文,我先找出了《Attention is All You Need》,看看里面的Transformer模型作为基础。 Transformer是为了机器翻译任务中的
阅读全文
摘要:https://applenob.github.io/em.html EM算法总结 在概率模型中,最常用的模型参数估计方法应该就是最大似然法。 EM算法本质上也是最大似然,它是针对模型中存在隐变量的情况的最大似然。 下面通过两个例子引入。 没有隐变量的硬币模型 假设有两个硬币,AA和BB,这两个硬币
阅读全文
摘要:https://applenob.github.io/em.html EM算法总结 在概率模型中,最常用的模型参数估计方法应该就是最大似然法。 EM算法本质上也是最大似然,它是针对模型中存在隐变量的情况的最大似然。 下面通过两个例子引入。 没有隐变量的硬币模型 假设有两个硬币,AA和BB,这两个硬币
阅读全文
摘要:https://www.jianshu.com/p/1121509ac1dc 如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。个人认为,理解EM算法背后的idea,远比看懂它的数学推导重要。idea会让你有一个直观的感受,从而明白算法的合理性,数学推导只是将这种合理性用更
阅读全文