特征工程中经常对数值型特征进行归一化来解决特征取值范围不统一的问题,但无法改变特征值的分布。
比如说对于电影的评分,由于人们打分有“中庸偏上“的倾向,因此评分大量集中在一个数值的附近,这样模型因为样本大量集中在一个区间,所以特征的区分度不高(都在一个值附近),模型的效果不好。
所以设置分割区间进行分桶,以桶的ID作为新的特征值,能有效提高特征的区分度。