1.7 - 决策树

1. 模型理念

　　香农信息论：一个系统越是混乱，信息熵越高，系统越是有序，信息熵越低。S = ∑ ( -p log(p) )，因此，系统内变量越多，信息熵越大，变量之间出现的概率越平均，信息熵越大。

　　在银行借贷决策模型中，判定一个人是否可以借贷，每个选中这个人的一个特征数据进行判断，然后再上次判断的基础上再用一个新特征(或旧特征)再次判断，每个判断都生成一个节点以及子树，直到最后得出结论。这个模型判断的过程就形成了一颗决策树。

　　根据数据标签计算初始系统的信息熵，【遍历每个特征的每个可能的分裂点】，求取分裂后的子系统的信息熵累加和，对比初始信息熵，选取信息增益最大的分裂点进行分裂，重复迭代，直到最大迭代次数或节点中的样本数量小于规定最低节点样本数量或节点中只剩余一种类型的样本( 会过拟合 ) 停止迭代。

　　信息增益：计算前后系统的信息熵差值。ID3算法。只能分类。

　　信息增益率：特征节点分类时，节点分裂的子分支越多，信息增益越大，这显然是不可理的。采用信息增益率，来降低过度分支产生的影响。C4.5算法。只能分类。

　　GINI增益：CART( classification and regression tree)，分类时采用GINI增益，回归时采用均方误差。且【CART区别上述算法的最根本的特征是 CART只能是二叉树】。

　　设置的树的深度过大或者叶节点最小样本数量过低。

posted @ 2024-04-03 17:52 橘子葡萄火龙果阅读(9) 评论(0) 编辑收藏举报

刷新页面返回顶部