特征工程
特征工程
- 特征提取
- 特征预处理
- 特征降维
降维的俩种方式
特征选择
主成分分析-特征提取的一种方式
特征选择
定义:数据中包含冗余或无关变量(特征,属性,指标)。旨在从原因特征中
方法
Fillter(过滤式)主要探究特征本身特点,特征与特征和目标值之间关联
方差选择法:低方差特征过滤
相关系数
Embedded(嵌入式):自动选择特征(特征与目标值之间的关联)
相关系数
pearson相关系数
斯皮尔曼相关系统
线性相关 非线性相关
皮尔逊相关系数
作用
反映变量之间相关关系密切程的统计指标
绝对值【0,1】 取值【-1,1】
绝对值等于1 关系程度大
等于0 完全无关
负数 负相关
正数 正相关
绝对值 <0.4 低度相关
绝对值【0.4,0.7】 x显著相关
绝对值 【0.7,1】 高度线性相关
关系矩阵
目标与特征关系(选择r值大的特征)
特征与特征关系(r 高度线性相关只保留一个特征 共线性)
主成分分析
什么是主成分分析
尽量少损失信息的前提下实现特征降维(生成一个新的变量)
API
sklearn.decomposition.PCA(n_components=None)
- 将数据分解为较低维数空间
- n_components:
- 小数:表示保留百分之多少的信息
- 整数:减少到多少特征
- PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
- 返回值:转换后指定维度的array
算法选择