决策树如何处理取值为连续值的特征(属性)

        在介绍信息增益、信息增益率、基尼指数的时候都只是说了离散特征的处理,公式也是只针对离散特征,那么连续特征怎么办呢?

  •         信息增益

在这里插入图片描述
       
       

  •         信息增益率

在这里插入图片描述

       
       

  •         基尼指数

在这里插入图片描述
       

连续值怎么办?

        显然公式不再适用,那么我们改公式吗?本来这几个公式就来自其他学科的研究成果,直接推广似乎不大可能,那么就有另一条路,把连续的特征离散化。这样一来不就又可以套上面处理离散值的公式了吗?

  1. 办法
            连续值离散化来处理,那怎么离散呢?西瓜书介绍的找一个阈值一分为二的方法

步骤:

  1. 假设在样本集合D上特征 a 有 n 个取值,先把 n 个值从小到大排个序。
  2. 确定一个阈值,把样本集合分成两部分。阈值怎么来呢,取排序后两个相邻的值的均值(那么n个值就有 n-1 个阈值),相当于n个小朋友从矮到高站成一排,你选个位置分成两堆,位置就等同于阈值
  3. 分别比较这 n-1 个阈值的信息增益,选使得信息增益最大的那个值作为阈值来划分

注意: 连续特征在划分时可以重复使用,不像离散特征,只能用一次,我也不知道为啥,还没想明白

posted on 2021-06-11 09:03  雾恋过往  阅读(417)  评论(0编辑  收藏  举报

Live2D