决策树

树模型:

决策树:从根节点开始一步步走到叶子节点(决策)。

所有的数据最终都会落到叶子节点，既可以做分类也可以做回归。

树的组成：

根节点：第一个选择点

非叶子节点与分支：中间过程

叶子节点：最终的决策树结果

决策树的训练与测试：

训练阶段：从给定的训练集构造出来一棵树(从根节点开始选择特征，如何进行特征切分)

测试阶段:根据构造出来的树模型从上到下走一遍就好了。

问题：根节点的选择该用哪个特征?接下来，如果切分呢?（如何切分特征）

目标：通过一种衡量标准，来计算通过不同的特征进行分支选择后的分类情况，找出最好的那个当成根节点，以此类推。

衡量标准-熵

熵:熵是表示随机变量不确定性的度量(越乱的结构说明熵值越高)。不确定性越大，得到的熵值也越大。

(解释:说白了就是物体内部的混乱程度，比如杂货市场里面什么都有，那肯定混乱，专卖店里面只卖一个牌子的那就稳定多了)

当 p=0或p=1的时候，H(p)=0，随机变量完全没有不确定性。当p=0.5的时候，H(p)=1,此时随机变量的不确定性越大。

信息增益：表示特征X使得类Y不确定性减少的程度。(分类后的专一性，希望分类后的结果是同类在一起)。也可以说表示的是你的熵值下降了多少。

比如原来熵值是10，后来熵值是8，那么就说明信息增益为2.

问答：

1.如何决策一个节点的选择?

通常来说大当家根节点去信息增益里面找最大的那个，二当家找信息增益第二的那个，依次类推下去，确保这个决策树的不确定性降到最低。增益越大，说明不确定性较少的越多。

posted @ 2020-01-19 19:19 风不再来阅读(147) 评论(0) 编辑收藏举报

刷新页面返回顶部

George