[数据挖掘]特征工程

本文来自《零基础入门数据挖掘》笔记。

特征工程

常见的特征工程包括:

 

总结

1、特征工程的主要目的是将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能。比如,异常值处理为了去除噪声,填补缺失值可以加入先验知识等。

2、特征构造属于特征工程的一部分,目的是为了增强数据的表达。

3、如果特征是匿名特征,并不知道特征相互之间的关联性,这时只能单纯基于特征进行处理,比如装箱,groupby,agg等操作进行特征统计,此外还可以对特征进行进一步的log,exp等变换,或者对多个特征进行四则运算、多项式组合等然后进行筛选。由于特征的匿名性限制了很多对于特征的处理,不过有时候也可以使用NN来提取一些特征,会达到意想不到的良好效果。

4、如果知道特征含义(非匿名性),可以基于信号处理、频域提取、峰度、偏度等构建更为有实际意义的特征,这是结合背景的特征构建。

posted @ 2020-03-28 00:47  justDoIT&  阅读(576)  评论(0编辑  收藏  举报