贝叶斯与决策树

贝叶斯和决策树

贝叶斯公式一言以蔽之：寻求概率的概率是多少。

\(P(A|B)=\frac{P(B|A)·P(A)}{P(B)}\)

我们假设有这样一件事：抛三次硬币，有一个人抛了三次全部都是正面，这就很奇怪了，是不是可能作弊了，还是说真的运气好，贝叶斯在这的应用就是计算作弊的概率有多大。

\(P(A)\)是先验分布，表示的是这个人的人品如何

\(P(B|A)\)是实验数据

\(P(A|B)\)是后验概率，表示的是在出现三次硬币都向上的情况下，这个人作弊的概率

因此，可以理解上述贝叶斯推断为如下表达式

后验分布 = 先验分布 + 实验数据

通常\(B=B_1∪B_2∪B_3...\)贝叶斯公式就写为

\(P(A|B)=\frac{P(B|A)·P(A)}{P(B)}=\frac{P(B_1,B_2,B_3...|A)P(A)}{P(B_1,B_2,B_3...)}\)

其中\(P(B_1,B_2,B_3...|A)\)的计算不太方便，引出条件独立的概念\(P(A|G,B)=P(A|G)\)对其进行简化

导出\(P(A,B|G)=P(A|G)P(B|G)\)

由于分母的值是一个常数，再进一步简化，获得另一个值

\(\omega = P(A)\prod_{i=0}^nP(B_i|A)\)

因为朴素贝叶斯的公式中全部都是连乘，万一有一项为0，导致后续的计算全部为0，这就出大问题了。而在计算条件概率的时候大多都是靠离散数据来求，如果数据集中没出现过的数据来到计算的步骤，显然会显示为0，拉普拉斯平滑的作用就是避免0的出现（后续开专栏讲这个吧，挖个坑）

通过特征对数据进行分类，如果两种不同的分类方式可以获得完全相同的预测结果，就选择简单的那种分类方式，这就使奥卡姆剃刀法则。

在介绍ID3决策树之前，需要先了解信息熵和信息增益，参考我的博客：https://www.cnblogs.com/seaman1900/p/15314895.html

ID3的算法规则很简单，就是寻找信息增益最高的特征作为节点，同时意味着选了这个特征之后不确定性最小。

分类停止的条件：

过学习：和神经网络类似，决策树的模型越复杂，学的越多，准确率就越高，但是相反的，在实际中面对复杂的情况下，有可能“读书读傻了”，导致运行效果就有可能不太理想。因此需要对决策树进行早停、剪枝（将某些分类后数据多、分类效果明显的特征与同级别的不起眼、效果不够好的特征融合）。

对于生日这样区分度高但是没有什么意义的特征需要添加惩罚。

posted @ 2021-10-09 13:43 折木家的招财猫阅读(462) 评论(0) 编辑收藏举报

刷新页面返回顶部