贝叶斯分类

原理:基于条件概率, 适用于不同维度之间相关性较小的时候,比较容易解释。

公式:p(c/x) = p(c,x) / p(x) = p(x/c)*p(c) / p(x)

解释:假设某个体有n个特征(feature),分别为F1,F2,........Fn

                              有m个类别(catogery),分别为C1,C2,.......Cm

          贝叶斯分类器就是计算出概率最大的那个类别

          P(C|F1,F2......Fn)=P(F1,F2......Fn/C)  *P(C)                        / P(F1,F2......Fn)

                                       =P(F1/C)*P(F2/C).......*P(Fn/C)*P(C)     /P(F1,F2......Fn)

#案例1

 

p(感冒/打喷嚏*建筑工人)=p(打喷嚏*建筑工人/感冒)*p(感冒)  /  p(打喷嚏*建筑工人)

                                             =p(打喷嚏/感冒)*p(建筑工人/感冒)*p(感冒)  /  p(打喷嚏)*p(建筑工人)

                                             =0.66 x 0.33 x 0.5 / 0.5 x 0.33 

                                             =0.66

#案例2

p(性别/身高*体重*脚掌)=p( 身高 * 体重 * 脚掌 / 性别) * p( 性别 )  / p( 身高 * 体重 * 脚掌)

                                       =p( 身高 / 性别 ) * p ( 体重 / 性别 )* p ( 性别 / 性别 ) * p ( 性别 )   / p (身高 * 体重 * 脚掌 )住

注:由于身高、体重、脚掌都是连续变量,不能采用离散变量的方法计算概率,

      可以假设男性和女性的身高、体重、脚掌都是正态分布

      通过样本计算出均值和方差,也就是得到正态分布的密度函数。有了密度函数,就可以把值代入,算出某一点的密度函数的值

     

 

    

     比如,男性的身高是均值5.855、方差0.035的正态分布。

    所以,男性的身高为6英尺的概率的相对值等于1.5789(大于1并没有关系,因为这里是密度函数的值,只用来反映各个值的相对可能性)。

P(身高=6|男) x P(体重=130|男) x P(脚掌=8|男) x P(男) 
    = 6.1984 x e-9
P(身高=6|女) x P(体重=130|女) x P(脚掌=8|女) x P(女) 
    = 5.3778 x e-4

可以看到,女性的概率比男性要高出将近10000倍,所以判断该人为女性。

posted on 2018-11-22 18:11  happygril3  阅读(290)  评论(0编辑  收藏  举报

导航