特征挖掘之对二阶特征的提取
在进行有监督的机器学习时,特征工程显得尤其重要,本文介绍的是在人工提取一些特征之后,怎样对这些特征进行二阶组合提取;
在进行一系列的摸索之后,得到3个基本点:
- 对连续的特征进行离散化处理:
- 最优分箱(见前面的博文)
- 进行WOE变换(将原特征用分箱后的WOE值替换)
- 离散特征:
- 如果离散特征的维度较低(低到多少自己定,可根据前面的博文输出结果决定),没有必要对其进行WOE变换
- 二阶组合要有一定的针对性
- 待组合的两个特征的重要性(或者IV)都比较低
- 待组合的两个特征的重要性(或者IV)一高一低
- 不建议对重要性很高的特征进行操作,当然也可以使用,但最后一定要评测好
二阶特征组合更多的应该是在给定某特征条件下的组合,而不是盲目的对所有的特征进行WOE变换之后进行简单的组合,这样会出问题,组合出来完全没意义(其实是在吐槽上面瞎指导的人)
未完待续...