决策树如何处理取值为连续值的特征（属性）

在介绍信息增益、信息增益率、基尼指数的时候都只是说了离散特征的处理，公式也是只针对离散特征，那么连续特征怎么办呢？

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

连续值怎么办？

显然公式不再适用，那么我们改公式吗？本来这几个公式就来自其他学科的研究成果，直接推广似乎不大可能，那么就有另一条路，把连续的特征离散化。这样一来不就又可以套上面处理离散值的公式了吗？

假设在样本集合D上特征 a 有 n 个取值，先把 n 个值从小到大排个序。
确定一个阈值，把样本集合分成两部分。阈值怎么来呢，取排序后两个相邻的值的均值（那么n个值就有 n-1 个阈值），相当于n个小朋友从矮到高站成一排，你选个位置分成两堆，位置就等同于阈值
分别比较这 n-1 个阈值的信息增益，选使得信息增益最大的那个值作为阈值来划分

注意： 连续特征在划分时可以重复使用，不像离散特征，只能用一次，我也不知道为啥，还没想明白

posted on 2021-06-11 09:03 雾恋过往阅读(417) 评论(0) 编辑收藏举报