连续特征离散化

1. Entropy-Based Discretization 基于熵的离散化

用熵对连续数据进行离散化，其基本思想是利用熵的大小来表示划分后数据集的纯度，熵越小，数据纯度越大，得到的离散数据可用性就更高

具体做法是：先把数据集划分为两部分，计算两部分的熵的和，在熵最小的地方划分，然后对熵最大的那部分重复此步骤，直到满足用户需要的数据集个数

posted @ 2018-10-21 16:53 肉松松鼠阅读(1035) 评论(0) 收藏举报

刷新页面返回顶部