决策树

信息熵:离散型,对取值数目较多的属性有所偏好,因为一个有n个取值的属性都不相同则分成n个类别(节点),每一个节点的纯度都是1(信息熵为0)。

  样本集合D中第k类样本所占的比例是$p_{k}(k=1,2,3....|y|)$,则D的信息熵且$End(D)$的值越小则D的纯度越高:

  $Ent(D)=-\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}$

信息增益:越大纯度提升越大

  $Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac {|D^{v}|} {|D|}Ent(D^{v})$

增益率:减少信息增益对取值数目较多的属性有所偏好的影响,但是增益率对取值数目较少的属性有所偏好,因此不直接选择增益率最大的候选划分属性,而是找出信息增益高于平均水平的属性再从中选择增益率最大的。

  $Gain\_ratio(D,a)=\frac {Gain(D,a)} {IV(a)}$

  $IV(a)=-\sum_{v=1}^{V} \frac {|D^{v}|} {|D|}log_{2}\frac {|D^{v}|} {|D|}$

 

基尼系数:

基尼值:反映了从数据集D中随机抽取俩个样本,其类别标记不一致的概率,越小纯度越高。

  $Gini(D)=\sum_{k=1}^{|y|}\sum_{{k}' \neq k}p_{k}p_{{k}'} = 1-\sum_{k=1}^{|y|}p_{k}^{2}$

基尼指数:

  $Gini\_index(D,a)=\sum_{v=1}^{V}\frac {|D^{v}|} {|D|}Gini(D^{v})$

 

  

posted @ 2019-09-03 15:14  小xxxx程序员  阅读(145)  评论(0编辑  收藏  举报