特征工程

特征工程通常包括:数据清洗、特征设计、特征变换和特征选择等环节。

数据和特征决定了机器学习的上限,而模型和算法只是不断地逼近这个上限。模型训练的好坏,也取决于特征设计、加工的效果。

特征工程是机器学习,甚至是深度学习中最为重要的一部分,也是课本上最不愿意讲的一部分,特征工程往往是打开数据密码的钥匙,是数据科学中最有创造力的一部分。因为往往和具体的数据相结合,很难优雅地系统地讲好。所以课本上会讲一下理论知识比较扎实的归一化,降维等部分,而忽略一些很dirty hand的特征工程技巧。什么是特征工程呢?一个非常简单的例子,现在出一非常简答的二分类问题题,请你使用逻辑回归,设计一个身材分类器。输入数据X:身高和体重 ,标签为Y:身材等级(胖,不胖)。显然,不能单纯的根据体重来判断一个人胖不胖,姚明很重,他胖吗?显然不是。针对这个问题,一个非常经典的特征工程是,BMI指数,BMI=体重/(身高^2)。这样,通过BMI指数,就能非常显然地帮助我们,刻画一个人身材如何。甚至,你可以抛弃原始的体重和身高数据。所以说,特征工程就是通过X,创造新的X'。基本的操作包括,衍生(升维),筛选(降维)。说起来简单,实际中,衍生和筛选都是困难重重,甚至需要非常专业的专家知识。

posted @ 2021-03-29 14:12  吴莫愁258  阅读(254)  评论(0编辑  收藏  举报