1.9 - 特征工程

1. 特征工程意义

  数据和特征决定了机器学习的上线,而模型和算法只是逼近这个上限。

  所有让模型效果变得更好的数据处理方式都可以称作特征工程。

2. 特征工程处理

2.1 数据清洗

  选择数据处理工具&查看数据的元数据以及特征信息,对字段意义、数据格式内容等有所认识,基于业务理解对数据进行关联性验证等。

2.2 异常值处理

  1)删除:按行删,按列删

  2)填充:均值、众数、中位数、常数、KNN填充等。KNN填充通常将一个值缺失的特征列和其它几个没有值缺失的特征列一起fit。

2.3 归一化与区间缩放

  当数据的量纲差距比较大的时候,数值大的特征很容易影响预测结果,模型很难学习到数值范围比较小的特征;特征数值相差过大也不利于模型收敛。

  1)Min-Max归一化:容易受到数据集中极大极小异常值的影响,使得数据不能平缓的分布在区间内。适合小批量洁净的数据集处理场景。

  2)Standard归一化:缩放到 均值为0方差为1 的分布区间,能够消减异常值影响。适合大量工业比较嘈杂数据的处理场景。

  3)自定义缩放区间:根据需求,自定义缩放区间。

2.4 特征提取

  将任意类型的数据转换为ML可处理的数字类型的数据。

  1)独热编码:对于N个状态使用N位寄存器来编码,寄存器只有一位有效。【英文字母按字典序,汉字按Unicode序 来决定N位寄存器的先后位置】

  2)哑编码:独热编码会对数据集所有数据进行编码,哑编只会对字符串类型的文本尽心编码

  3)文本数据处理 - 词袋法:所有文章用分词器分成N个词,M篇文章最终形成 M×N 的特征矩阵。

  4)文本数据处理 - TF-IDF:TF表词频;IDF表逆向文档频率。一个词在当前文章中出现的次数越多则这个词越能代表该文章特征,当前文章中的某个词在所有文章中出现的次数越多则这个词对该文章特征越不重要。

2.5 特征选择

  剔除掉冗余或无关特征,筛选出和目标属性更相关的特征。不会对现有的数据集做数值上的修改,只是会增删某列数据。

  1)方差选择法:方差大的特征更有效,保留特征方差大于设定阈值的特征。

  2)相关系数法:获取和目标属性最相关的K个属性特征;删除掉属性特征之间强相关的部分。

  3)卡方检验法:首先假设属性特征和目标属性无关,然后在数据集中用条件概率验证,最后结果验证假设。

2.6 特征降维

  数据集特征过多,会导致计算量过大,模型训练时间过长,因此需要降低特征维度。

特征降维会将多个特征缩减为少量有代表性的特征,类似多项式扩展还原的过程,降维过程会将原始数据集的数值改变。

2.6.1 线性判别分析法LDA

  1)思想:求一个旋转向量w,将数据x映射到一维,使得两类能够分开。在映射后的维度上,要求数据:【类内方差最小,类间方差最大。】,有监督学习。

  2)模型构建:分别求两类点的类内平均方差和类间平均距离,构建损失函数,最终求解 w向量方向。(推导过程自己推)

2.6.1 主成分分析法PCA

  1)思想:寻找一个轴,使样本在这个轴上的投影的方差最大,这个轴即:主方向。再从与轴相交的面中寻找一个轴,使得样本在这个新轴上的投影方差最大,按顺序依次寻找K个这样的轴取前r个,即:主成分。

  2)模型构建:设数据集矩阵为A,根据思想构建模型求解之后,求解的 主成分轴向量u 即方阵 AAT 的特征向量,特征向量对应的特征值λ 即数据投影到轴方向后的方差。而AAT 和A的协方差矩阵只差一个系数n-1,对A的协方差矩阵进行特征值分解,保留r个特征值最大的项,就可以得到最大的r个u以及对应的A。

 

3. 特征工程梳理

3.1 探索性数据分析(EDA,Exploratory Data Analysis)

3.1.1 查看目标属性的分布

  如果是分类问题,类别比例分布不均后面要进行类别均衡处理;如果是回归问题且使用的模型对分布有要求如:线性拟合,要保证数据分布 偏度为0且为标准正态分布,偏度较大时需要矫正偏度。

补充:偏度用来衡量数据概率分布的不对称性,它描述了数据分布的尾部在平均值的哪一侧更长,右侧更长称positive skewness,左侧更长称negative skewness,偏度越大说明数据分布越不均匀。标准化只能将正态分布的数据转换为标准正态分布,但是对于有偏度的数据则无法矫正。矫正偏度的方法:取对数,开方根 等。

3.1.2 数据挖掘-特征选择

  1)如果是分类问题。  要分析类别比例而不是类别数量 和每个特征之间的关系,如 titanic数据集要分析 “生还率” 而不是生还数量。  如果是离散特征,可以卡方检验 或者作图 饼状图、柱状图等分析。如果是连续特征 或 具有时序性质的离散特征(如: 入网几个月),可以做 折线图 分析 类别比例和特征值之间的关系。

  2)如果是回归问题。  可以通过相关系数分析 特征属性和目标属性之间的相关性。  如果是连续特征,可以直接生成相关系数矩阵;如果是离散特征,本质也是离散特征和连续特征之间相关性的判断问题,可以反过来,查看数据在每个离散特征值中的 均值、方差和分布情况,可以通过做 折线图 查看,也可以通过箱型图查看。

  大体分为  连续特征与连续特征、离散特征与离散特征、连续特征与离散特征。

3.2 数据预处理

  1)做箱型图,查看异常值,并处理。

  2)缺失值分析与填充。

 

posted @ 2024-04-04 19:48  橘子葡萄火龙果  阅读(8)  评论(0编辑  收藏  举报