Loading

贝叶斯与决策树

贝叶斯和决策树

贝叶斯公式一言以蔽之:寻求概率的概率是多少。

\(P(A|B)=\frac{P(B|A)·P(A)}{P(B)}\)

我们假设有这样一件事:抛三次硬币,有一个人抛了三次全部都是正面,这就很奇怪了,是不是可能作弊了,还是说真的运气好,贝叶斯在这的应用就是计算作弊的概率有多大。

\(P(A)\)是先验分布,表示的是这个人的人品如何

\(P(B|A)\)是实验数据

\(P(A|B)\)是后验概率,表示的是在出现三次硬币都向上的情况下,这个人作弊的概率

因此,可以理解上述贝叶斯推断为如下表达式

后验分布 = 先验分布 + 实验数据

朴素贝叶斯

通常\(B=B_1∪B_2∪B_3...\)贝叶斯公式就写为

\(P(A|B)=\frac{P(B|A)·P(A)}{P(B)}=\frac{P(B_1,B_2,B_3...|A)P(A)}{P(B_1,B_2,B_3...)}\)

其中\(P(B_1,B_2,B_3...|A)\)的计算不太方便,引出条件独立的概念\(P(A|G,B)=P(A|G)\)对其进行简化

导出\(P(A,B|G)=P(A|G)P(B|G)\)

由于分母的值是一个常数,再进一步简化,获得另一个值

\(\omega = P(A)\prod_{i=0}^nP(B_i|A)\)

拉普拉斯平滑

因为朴素贝叶斯的公式中全部都是连乘,万一有一项为0,导致后续的计算全部为0,这就出大问题了。而在计算条件概率的时候大多都是靠离散数据来求,如果数据集中没出现过的数据来到计算的步骤,显然会显示为0,拉普拉斯平滑的作用就是避免0的出现(后续开专栏讲这个吧,挖个坑)

决策树

通过特征对数据进行分类,如果两种不同的分类方式可以获得完全相同的预测结果,就选择简单的那种分类方式,这就使奥卡姆剃刀法则。

ID3决策树

在介绍ID3决策树之前,需要先了解信息熵和信息增益,参考我的博客:https://www.cnblogs.com/seaman1900/p/15314895.html

ID3的算法规则很简单,就是寻找信息增益最高的特征作为节点,同时意味着选了这个特征之后不确定性最小。

分类停止的条件:

  • 经过特征分类后子节点剩余特征只有一种数据,其他特征的数据全部为0,称为pure
  • 剩下的数据已经无法再进行分类,特征用完了,称为no attribute
  • 根据某个特征分类后得到的是空的数据集,成为empty

过学习:和神经网络类似,决策树的模型越复杂,学的越多,准确率就越高,但是相反的,在实际中面对复杂的情况下,有可能“读书读傻了”,导致运行效果就有可能不太理想。因此需要对决策树进行早停、剪枝(将某些分类后数据多、分类效果明显的特征与同级别的不起眼、效果不够好的特征融合)。

对于生日这样区分度高但是没有什么意义的特征需要添加惩罚。

posted @ 2021-10-09 13:43  折木家的招财猫  阅读(429)  评论(0编辑  收藏  举报