决策树理解
一.ID3
1.李航统计学习书上写:ID3相当于用极大似然法进行概率模型的选择。这句话邹博的回答是:从ID3的构建树过程而言,它可以看成使用贪心算法得到近似最优的一颗决策树,它无法保证是最优的。李航《统计学习方法》中这句话,应该是ID3提出时使用的理论依据,可以参考J.R. QUINLAN的" Induction of Decision Trees ",我简略看了下,我个人感觉,应该是他引用的更早的文献,使用最大似然估计方法推导得到了信息增益。 应该可以先这么理解。
2.ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。
3.ID3采用的信息增益度量存在一个缺点,它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益?(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大)
二。C4.5
C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。信息增益比率通过引入一个被称作分裂信息(Split information)的项来惩罚取值较多的Feature。除此之外,C4.5还弥补了ID3中不能处理特征属性值连续的问题。但是,对连续属性值需要扫描排序,会使C4.5性能下降
三。CART
1.相比ID3和C4.5,CART应用要多一些,既可以用于分类也可以用于回归
2.CART分类时,使用基尼指数(Gini)来选择最好的数据分割的特征,gini描述的是纯度,与信息熵的含义相似。CART中每一次迭代都会降低GINI系数
3.回归时使用均方差作为loss function