逐点互信息PMI(Pointwise mutual information)5发

逐点互信息(PIM):用来衡量两个事物的相关性

定义如下:

 

在概率论中,我们知道,如果x跟y不相关,则 P(x,y) = P(x)P(y)。二者相关性越大,则 P(x,y) 就相比于 P(x)P(y) 越大。根据条件概率公式,你还可以写成

 

 

这也很好理解,在y出现的情况下x出现的条件概率 p(x|y) 除以x本身出现的概率 p(x) ,自然就表示x跟y的相关程度。
这里的log来自于信息论的理论,而且 log 1 = 0 ,也恰恰表明P(x,y) = P(x)P(y),相关性为0,而且log是单调递增函数,所以 “P(x,y) 就相比于 P(x)P(y) 越大,x 和 y 相关性越大” 这一性质也得到保留


原文链接:https://blog.csdn.net/baimafujinji/article/details/6509820

 

posted @ 2019-10-03 08:43  韩雪溪  阅读(4086)  评论(0编辑  收藏  举报