特征工程

特征工程通常包括：数据清洗、特征设计、特征变换和特征选择等环节。

数据和特征决定了机器学习的上限，而模型和算法只是不断地逼近这个上限。模型训练的好坏，也取决于特征设计、加工的效果。

特征工程是机器学习，甚至是深度学习中最为重要的一部分，也是课本上最不愿意讲的一部分，特征工程往往是打开数据密码的钥匙，是数据科学中最有创造力的一部分。因为往往和具体的数据相结合，很难优雅地系统地讲好。所以课本上会讲一下理论知识比较扎实的归一化，降维等部分，而忽略一些很dirty hand的特征工程技巧。什么是特征工程呢？一个非常简单的例子，现在出一非常简答的二分类问题题，请你使用逻辑回归，设计一个身材分类器。输入数据X:身高和体重，标签为Y:身材等级（胖，不胖）。显然，不能单纯的根据体重来判断一个人胖不胖，姚明很重，他胖吗？显然不是。针对这个问题，一个非常经典的特征工程是，BMI指数，BMI=体重/(身高^2)。这样，通过BMI指数，就能非常显然地帮助我们，刻画一个人身材如何。甚至，你可以抛弃原始的体重和身高数据。所以说，特征工程就是通过X，创造新的X'。基本的操作包括，衍生（升维），筛选（降维）。说起来简单，实际中，衍生和筛选都是困难重重，甚至需要非常专业的专家知识。

posted @ 2021-03-29 14:12 吴莫愁258 阅读(269) 评论(0) 收藏举报

刷新页面返回顶部

吴莫愁258

特征工程

公告