决策树

树模型:

决策树:从根节点开始一步步走到叶子节点(决策)。

所有的数据最终都会落到叶子节点,既可以做分类也可以做回归。

树的组成:

根节点:第一个选择点

非叶子节点与分支:中间过程

叶子节点:最终的决策树结果

决策树的训练与测试:

训练阶段:从给定的训练集构造出来一棵树(从根节点开始选择特征,如何进行特征切分)

测试阶段:根据构造出来的树模型从上到下走一遍就好了。

问题:根节点的选择该用哪个特征?接下来,如果切分呢?(如何切分特征)

目标:通过一种衡量标准,来计算通过不同的特征进行分支选择后的分类情况,找出最好的那个当成根节点,以此类推。

 

衡量标准-熵

:熵是表示随机变量不确定性的度量(越乱的结构说明熵值越高)。不确定性越大,得到的熵值也越大。

(解释:说白了就是物体内部的混乱程度,比如杂货市场里面什么都有,那肯定混乱,专卖店里面只卖一个牌子的那就稳定多了) 

当 p=0或p=1的时候,H(p)=0,随机变量完全没有不确定性。当p=0.5的时候,H(p)=1,此时随机变量的不确定性越大。

信息增益:表示特征X使得类Y不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起)。也可以说表示的是你的熵值下降了多少。

比如原来熵值是10,后来熵值是8,那么就说明信息增益为2.

 

问答:

1.如何决策一个节点的选择?

通常来说大当家根节点去信息增益里面找最大的那个,二当家找信息增益第二的那个,依次类推下去,确保这个决策树的不确定性降到最低。增益越大,说明不确定性较少的越多。

posted @ 2020-01-19 19:19  风不再来  阅读(147)  评论(0编辑  收藏  举报