python数据预处理和特性选择后列的映射

我们在用python进行机器学习建模时，首先需要对数据进行预处理然后进行特征工程，在这些过程中，数据的格式可能会发生变化，前几天我遇到过的问题就是：

对数据进行标准化、归一化、方差过滤的时候数据都从DataFrame格式变为了array格式。

这样数据的列名就会消失，且进行特征选择之后列的数量也会发生改变，因此需要重新对列进行映射，为其加上列名并转化为DataFrame的格式。一般情况下可以分为三种情况：

1、对数据进行缺失值填补、编码（处理分类型变量）、二值化（处理连续型变量）一般都是按照列对数据进行处理，因此处理完之后，直接覆盖原数据即可。　　　　

data.loc[:,"Age"]= SimpleImputer(strategy="median").fit_transform(data.loc[:,"Age"].values.reshape(-1,1))

2、对数据进行标准化、归一化都是对整个特征矩阵进行处理，数据类型变为array，但是数据的列并没有发生任何改变。直接将原始的列名重新映射至处理好的数据上。

X_train1 = min_max_scaler.fit_transform(X_train)  
X_train1=pd.DataFrame(X_train1)
X_train1.columns = X_train.columns

3、在所有特征选择方法，方差，SelectKBest+各种统计量（卡方过滤、F检验、互信息法），嵌入法和包装法，都有接口get_support，该接口有参数indices，get_support(indices=False)，参数为false的时候可以用来确定原特征矩阵中有哪些特征被选择出来，返回布尔值True或者False，如果设定indices=True，就可以确定被选择出来的特征在原特征矩阵中所在的位置的索引。

X_train_columns = X_train.columns

selector = VarianceThreshold(0.005071)
X_fsvar = selector.fit_transform(X_train)
X_fsvar.columns = X_train_columns[selector.get_support(indices=True)]

posted @ 2018-12-15 14:31 simpleDi 阅读(1724) 评论(0) 收藏举报

刷新页面返回顶部

simpleDi

python数据预处理和特性选择后列的映射

公告