分布函数和共轭
待完善
0、概述
三年前的时候做一个无监督的NLP任务,即在文章中推荐与其相关的商品。当时的第一个想法是首先使用LDA算法抽取文章的主题,然后再使用相同词分布和主题分布信息,提取商品描述信息的主题;接下来计算文章主题和商品主题的相关性。训练模型的文章有400万,商品数量有20万,大部分文章推荐的商品还说的过去(因为是无监督学习,只能通过抽样进行人工校验,因此评价指标是比较模糊的)。开始对LDA感兴趣,学习了Rickjin大神《LDA数学八卦》,里面的几个分布函数写的太惊艳了,非常惭愧自己本科是学统计学的,花了很长时间才弄懂Gamma分布和Dirichlet分布的应用。
1、几个重要分布的关系
先验分布+数据的知识=后验分布
1.1 Gamma分布和Poisson分布
Gamma分布和Poisson分布数学形式上是一致的,只是Poisson分布是离散的,Gamma分布是连续的。可以直观认为Gamma分布是Poisson分布在正实数集上的连续化版本。
1.2 Gamma函数和Beta函数的关系
1.3 Beta分布和Binomial共轭
1.4 Dirichlet与Multinomial共轭
2、常见分布函数及其关系
3. 资源
《LDA数学八卦》链接: https://pan.baidu.com/s/1VKtUnODo0lds55TY2SIr0w 提取码: w4pe
常见分布函数及其关系,Univariate Distribution Relationships:http://www.math.wm.edu/~leemis/chart/UDR/UDR.html