决策树
信息熵:离散型,对取值数目较多的属性有所偏好,因为一个有n个取值的属性都不相同则分成n个类别(节点),每一个节点的纯度都是1(信息熵为0)。
样本集合D中第k类样本所占的比例是$p_{k}(k=1,2,3....|y|)$,则D的信息熵且$End(D)$的值越小则D的纯度越高:
$Ent(D)=-\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}$
信息增益:越大纯度提升越大
$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac {|D^{v}|} {|D|}Ent(D^{v})$
增益率:减少信息增益对取值数目较多的属性有所偏好的影响,但是增益率对取值数目较少的属性有所偏好,因此不直接选择增益率最大的候选划分属性,而是找出信息增益高于平均水平的属性再从中选择增益率最大的。
$Gain\_ratio(D,a)=\frac {Gain(D,a)} {IV(a)}$
$IV(a)=-\sum_{v=1}^{V} \frac {|D^{v}|} {|D|}log_{2}\frac {|D^{v}|} {|D|}$
基尼系数:
基尼值:反映了从数据集D中随机抽取俩个样本,其类别标记不一致的概率,越小纯度越高。
$Gini(D)=\sum_{k=1}^{|y|}\sum_{{k}' \neq k}p_{k}p_{{k}'} = 1-\sum_{k=1}^{|y|}p_{k}^{2}$
基尼指数:
$Gini\_index(D,a)=\sum_{v=1}^{V}\frac {|D^{v}|} {|D|}Gini(D^{v})$