数据探索
一.查看特征数据类型,有没有文本型变量需要处理
train_data.info()
train_data.describe(include="all",percentiles=[0.5]).T.round(2)
二.查看缺失值数量或占比
三.查看标签分布
# 查看标签分布 df['label'].value_counts() # 查看标签占比是否比例,是否均衡 len(train_data[train_data['SeriousDlqin2yrs']==1])/len(train_data[train_data['SeriousDlqin2yrs']==0])
四.可视化
1.单变量作图
#直方图 train_data['age'].plot.hist(bins=30)
#当直接昨天不好看不均衡时 income= train_data['MonthlyIncome'] income.loc[income<23343].plot.hist(bins=50);
2.多变量探索(x间的相关性)
一般相关系数<0.8不会考虑删除,相关系数>0.9,考虑删除或者降维
# 多变量探索 默认pearson相关系数 plt.figure(figsize=(10,8)) sns.heatmap(train_data.corr(),annot=True,linewidths=1)
五.去重
数据预处理前先去重
# 去重 train_data.drop_duplicates(inplace=True) train_data.shape