决策树如何对连续性特征进行分段?
特征离散化处理
问题抽象
假设训练样本集合D中有n个样本,考察对连续属性a的最佳分段点/划分点。
若属性a在这n个样本中有m个不同的取值(m<=n),对这m个值两两之间取中点,可获得m-1个中点作为候选划分点。
选择过程
接下来的选择最佳划分点过程和离散属性的虚选择过程类似,以基尼系数或信息增益作为度量,选择使度量值最大的候选划分点作为最佳划分点。
假设我把这0~5的值分成5份,0~1,1~2,2~3,3~4,4~5,那么,我们就有5个离散化的范围了,对每个分类点计算信息增益,(也就是一共计算五次),取最大的一个作为分段点。
posted on 2018-03-22 22:14 mdumpling 阅读(1870) 评论(0) 编辑 收藏 举报