机器学习-概率图模型系列-朴素贝叶斯算法-33
1. 贝叶斯公式
P(A|B) 后验概率在B事件发生的基础上A发生的概率,
举例:
- 血液检测呈阳性患XX病的概率,
- 已知拍西瓜清脆的声音,西瓜成熟的概率是不是会大一点,
- 相亲功能否成功是有一定的概率,但是如果知道对方是一个高富帅(或者白富美)是不是相亲成功的概率会大很多。
- 晚上10点,人们已经入睡是有一定的概率 50%,但是观察发现房间的灯是亮着的,是不是能推断,主人入睡的可能性会降低很多 (很大的概率主人是没有入睡的)
这些都叫做后验概率,手里已经有某个证据,不再是盲猜。
P(B):事件B发生的概率
例如:血液检测呈阳性的概率,(由于检测技术有一定的误判)这个概率有两部分组成,本身是阳性且被检测出为阳性+本身为阴性但是被检测出为阳性。
P(B|A) 在所有的患XX病人中 检测为阳性的概率
P(A) 不管其他的因数 人群中 患有XX病的概率
2. 朴素贝叶斯算法
朴素贝叶斯方法是一组基于贝叶斯定理的监督学习算法,朴素贝叶斯算法通过预测指定样本属于特定类别的概率来预测该样本的所属类别,即:
转化成:
分母P(X)是固定值 不用考虑
为了方便计算 可以采用取对数 因为关心的是属于哪一类别的可能性更大
尽管它们的假设显然过于简化,但naive Bayes分类器在许多实际情况下都能很好地工作,比如常见的文档分类和垃圾邮件过滤。
本质是是一种统计学习。
3. 其他的贝叶斯模型
高斯朴素贝叶斯:
定各个特征xi在各个类别yj下是服从正态分布的,
预测:
多项式朴素贝叶斯-MultinomialNB
定各个特征
在各个类别
下是服从多项式分布的
其实这里问题会转化为多项式分布的最大似然估计问题
伯努利朴素贝叶斯--BernoulliNB
样本数据为某一个单词是否出现
问题会转化为二项分布的最大似然估计问题