机器学习--决策树(信息熵,信息增益,信息增益率,基尼值,基尼指数)

决策树是根据条件分支语句if-else产生的,决策树是一种树形结构,每一个内部节点表示是一个属性上的判断,每一个分支表示判断结果的输出,每一个叶子节点表示分类结果,本质上就是多个判断节点的树。

在使用决策树的时候会提到熵的概念

熵:熵表示混乱程度,越混乱熵值越大,越有序熵值越小,在信息论里,有着信息熵的概念。

信息熵:p(x)表示第k类样本的数量除以样本总量

 信息增益:信息增益是表示数据集中某个特征X的信息使类Y的信息的不确定性减少的程度(描述不清,上图看更直观)

 案例体现:

 信息增益率:

 基尼值以及基尼指数:

 案例体现:

 

 总结:

 明天更新一下决策树的剪枝,包括预剪枝,后剪枝以及cart剪枝

 

posted @ 2023-12-04 20:36  cojames  阅读(80)  评论(0编辑  收藏  举报