1.7 - 决策树

1. 模型理念

  香农信息论:一个系统越是混乱,信息熵越高,系统越是有序,信息熵越低。S = ∑ ( -p log(p) ),因此,系统内变量越多,信息熵越大,变量之间出现的概率越平均,信息熵越大。

  在银行借贷决策模型中,判定一个人是否可以借贷,每个选中这个人的一个特征数据进行判断,然后再上次判断的基础上再用一个新特征(或旧特征)再次判断,每个判断都生成一个节点以及子树,直到最后得出结论。这个模型判断的过程就形成了一颗决策树。

2. 模型构建

2.1 决策树构建过程

  根据数据标签计算初始系统的信息熵,【遍历每个特征的每个可能的分裂点】,求取分裂后的子系统的信息熵累加和,对比初始信息熵,选取信息增益最大的分裂点进行分裂,重复迭代,直到 最大迭代次数 或 节点中的样本数量小于规定最低节点样本数量 或 节点中只剩余一种类型的样本( 会过拟合 )  停止迭代

2.2 特征节点分裂的有效性评价

  信息增益:计算前后系统的信息熵差值。ID3算法。只能分类。

  信息增益率:特征节点分类时,节点分裂的子分支越多,信息增益越大,这显然是不可理的。采用信息增益率,来降低过度分支产生的影响。C4.5算法。只能分类。

  GINI增益:CART( classification and regression tree),分类时采用GINI增益,回归时采用均方误差。且【CART区别上述算法的最根本的特征是 CART只能是二叉树】。

3. CART引发过拟合和欠拟合的因素以及改进措施

3.1 过拟合

  设置的树的深度过大 或者 叶节点最小样本数量过低 。

4. 应用场景以及模型特性

5. 完整可运行的代码

 

posted @ 2024-04-03 17:52  橘子葡萄火龙果  阅读(9)  评论(0编辑  收藏  举报