1.7 - 决策树
1. 模型理念
香农信息论:一个系统越是混乱,信息熵越高,系统越是有序,信息熵越低。S = ∑ ( -p log(p) ),因此,系统内变量越多,信息熵越大,变量之间出现的概率越平均,信息熵越大。
在银行借贷决策模型中,判定一个人是否可以借贷,每个选中这个人的一个特征数据进行判断,然后再上次判断的基础上再用一个新特征(或旧特征)再次判断,每个判断都生成一个节点以及子树,直到最后得出结论。这个模型判断的过程就形成了一颗决策树。
2. 模型构建
2.1 决策树构建过程
根据数据标签计算初始系统的信息熵,【遍历每个特征的每个可能的分裂点】,求取分裂后的子系统的信息熵累加和,对比初始信息熵,选取信息增益最大的分裂点进行分裂,重复迭代,直到 最大迭代次数 或 节点中的样本数量小于规定最低节点样本数量 或 节点中只剩余一种类型的样本( 会过拟合 ) 停止迭代。
2.2 特征节点分裂的有效性评价
信息增益:计算前后系统的信息熵差值。ID3算法。只能分类。
信息增益率:特征节点分类时,节点分裂的子分支越多,信息增益越大,这显然是不可理的。采用信息增益率,来降低过度分支产生的影响。C4.5算法。只能分类。
GINI增益:CART( classification and regression tree),分类时采用GINI增益,回归时采用均方误差。且【CART区别上述算法的最根本的特征是 CART只能是二叉树】。
3. CART引发过拟合和欠拟合的因素以及改进措施
3.1 过拟合
设置的树的深度过大 或者 叶节点最小样本数量过低 。
4. 应用场景以及模型特性
5. 完整可运行的代码