使用matplotlib绘制箱型图(箱线图)及简要分析
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。(来源:百度百科【箱型图】词条)
箱形图有5个参数:
下边缘(Q1),表示最小值;
下四分位数(Q2),又称“第一四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;
中位数(Q3),又称“第二四分位数”等于该样本中所有数值由小到大排列后第50%的数字;
上四分位数(Q4),又称“第三四分位数”等于该样本中所有数值由小到大排列后第75%的数字;
上边缘(Q5),表述最大值。
第三四分位数与第一四分位数的差距又称四分位间距。
箱型图有个功能就是可以检测这组数据是否存在异常值。异常值在哪里呢?就是在上边缘和下边缘的范围之外。
我们使用公司验证客户贷款资格的一些数据来做展示,下面是一些数据变量及其描述。
数据如下所示:
下面的代码使用pd.read_csv()从csv文件中读取数据,并绘制箱型图:
绘制的箱线图如下所示:
从箱线图中我们可以看到,毕业生和非毕业生的平均收入没有实质性差异。但是,收入水平很高的毕业生人数更多,而这些毕业生似乎都是异常值。