特征工程
一. 数据探索分析&数据清洗&缺失值填充
1 Which features are categorical?
什么特征是离散的?
2 Which features are numerical?
什么特征是连续的?
3 Which features are mixed data types?
什么数据类型是混合数据类型?
4 Which features cannot be used directly and should be processed?
那些特征还不能直接使用,需要做进一步的处理?
5 What is the distribution of numerical feature values across the samples?
连续数据特征是怎样分布的?
6 What is the distribution of categorical features?
离散数据特征是怎样分布的?
7 Which features may contain errors or typos?
哪些数据含错误或者正确的类型?
8 Which features contain blank, null or empty values?
哪些数据包含空值?
二. 数据转换
1. 数值型特征两个基本要点
9 values of the feature is fitable for the model?
模型直接使用该特征的值是否合适?
10 numeric data is the magnitude matters ?
这个特征是否真需要用具体的数值去描述?
11 what is the scale of the features?
特征值的范围是什么?
2. 离散型特征转换方法
- 离散型数值特征
- 离散型非数值特征
3.连续性数据特征的转换方法
Log化
针对一些数值连续特征的方差不稳定,特征值重尾分布我们需要采用Log化来调整整个数据分布的方差,属于方差稳定型数据转换。比如在词频统计中,有些介词的出现数量远远高于其他词,这种词频分布的特征就会现有些词频特征值极不协调的状况,拉大了整个数据分布的方差。这个时候,可以考虑Log化。尤其在分本分析领域,时间序列分析领域,Log化非常常见, 其目标是让方差稳定,把目标关注在其波动之上。
Box-Cox方法
Box-Cox这也是为了改善数据的整体分布, 能够改善样本代表的整体分布的正态性。其总体分布越接近正态分布,抽样分布(样本的算术平均值所服从的分布)就在样本量越大时越接近正态分布。而抽样分布的正态性越好,t 检验就越准确。
Min-Max 归一化
标准化
三. 特征选择
12 X is related to the predict result?
X与预测结果是否相关?
13 Is feature X related to feature Y?
X与Y是否相关?
14 Should we remove X from the feature set?
X应不应该挪出特征集合?
15 What's the best feature set?
最好的特征集合是哪些?
- Filter过滤器方法,与模型训练独立开,侧重单个特征于预测目标的相关性。
- Wrapper包装器方法,使用统一评分函数,将子特征组合作为输入对其打分排序
- Embedded嵌入式法,模型与特征选择一体,引入正则化项机器学习模型帮组选择。
Filter过滤器方法
- 方差选择法
- 相关系数法
- 卡方检验法
- 互信息法