数据预处理之数据可视化
数据可视化可以帮助我们理解数据:查看数据的分布情况,观察有没有异常值,各个变量之间的相关情况。
当我们进行数据可视化的时候,我们要紧紧围绕着这个变量和我们的目标变量之间的关系,在绘制大多数图的时候都要出现目标变量。
连续型数据的可视化:
对于连续的数值类型数据,我们常常使用直方图(histogram)来进行描述信息,将连续的数据分成一个个的bin。plt.hist和seaborn中的distplot可以进行直方图的绘制。使用核密度估计kedplot可以查看概率密度的情况。
无论是单独的观察连续的数值类型信息,还是结合其他的分类数据观察数值类型的信息,使用直方图是免不了的。使用直方图可以让我们发现数据的分布情况,一般为正太分布,继而能够看到数据的偏度和峰度情况,在这个情况上可以做进一步的决策,比如是否对数据进行标准化等。假如各个段的信息分布是有差别的,那么是否对连续数据进行分组操作。
对于连续变量,也可以使用箱形图(boxplot)还有小提琴图(violinplot),前者可以发现数据中的异常点,中位数等信息。后者可以看中位数,还有数据分布的概率密度情况。
连续变量和连续变量结合:
这个时候可以使用散点图(scatter)来看它们之间的关系,从散点图里面能够看出一些信息,比如是不是线性相关,或者是呈现指数分布。另外还可以从中发现出来一些异常点。
连续变量和分类变量结合
连续变量和分类变量结合的时候,假如不是只使用连续变量的某类信息,(比如只使用连续变量的均值作为一个轴上面的信息),那么还是要使用上述连续变量所使用的几种图形的。这个时候通常将分类变量当做一个坐标轴上的一个个取值,在这个取值下面观察连续变量的分布情况。比如分类变量作为x轴,y轴用箱形图观察变量的分布。
分类变量
对于分类变量,可以使用条形图(barplot), 点图(pointplot),观察他们之间的关系。观察分类变量和目标变量之间的关系。在绘图的时候,分类变量通常要和分类变量结合,或者和连续变量结合,同时看好几个变量结合起来的情况。
查看整体情况
对于很多变量,有没有一些方法来查看这些变量之间的整体情况,或者两两变量之间的关系?这个时候可以使用pairplot和heatmap(热图)来进行查看。前者可以查看到两个变量的分布情况,后者可以查看到变量之间的相关性。
问题与总结:
上面写的就是当我们观察各个变量的时候使用的一般策略。在进行变量观察的时候,难的不是画图这个动作,而是决定看哪些变量与哪些变量之间的关系,以及以及如何进行观察。选择的变量和观察方式不同,我们能够得到的结论就不同。