机器学习与数据挖掘--朴素贝叶斯
前期知识
先验概率与后验概率
由以往的数据分析得到的概率,叫做先验概率(经验)
在得到信息之后加以重新修正的概率叫做后验概率
后验概率属于条件概率的一种
朴素贝叶斯
朴素贝叶斯是贝叶斯分类里面最简单的一种
为什么叫朴素贝叶斯,朴素在哪里?
假设所有的特征之间是统计独立的
朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设来学习输入输出的联合概率分布;然后基于此模型,进行预测:对给定的x(特征),利用贝叶斯定理求出后验概率最大的输出y(类别)。
朴素贝叶斯通过训练数据集学习联合概率P(X,Y)。具体地,学习先验概率分布和条件概率分布。
朴素贝叶斯进行分类时,对给定的输入x,通过学习到的模型计算后验概率分布P(Y=C.IX=x))将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行。
先验概率*所有特征的概率
贝叶斯估计
可能出现的异常:
计算后验概率时,是通过先验概率和条件概率联乘得到的。如果某个条件概率(他的特征在数据训练集里面没有出现过)为0,则会影响到最终结果。即:无论其他条件概率如何,最后得到的结果都为0.
解决方法:
贝叶斯估计
在分子和分母加上一些数
S(j)代表在第j的维度上的特征有多少取值的可能
k代表样本中所有类别的数目
2分类k就是2
5分类k就是5
贝叶斯估计实例
实例 引进贝叶斯估计对结果的定性(毕竟分类)不会产生影响
特征值为连续值的解决方法
只要计算出训练样本中在各个类别特征值划分的均值和标准差,带入公式即可得到其估计值(能代表整体数据的两个特征,即把所有整体数据利用能代表其全部的两个特征,)
利用高斯分布(正态分布)
😔,概率论学的全忘了,hhh
正态分布是与中的定量现象的一个方便模型。各种各样的心理学测试分数和现象比如计数都被发现近似地服从正态分布
正态分布公式: