使用matplotlib绘制箱型图(箱线图)及简要分析

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。(来源:百度百科【箱型图】词条)

 

这里写图片描述

 

箱形图有5个参数:
下边缘(Q1),表示最小值;
下四分位数(Q2),又称“第一四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;
中位数(Q3),又称“第二四分位数”等于该样本中所有数值由小到大排列后第50%的数字;
上四分位数(Q4),又称“第三四分位数”等于该样本中所有数值由小到大排列后第75%的数字;
上边缘(Q5),表述最大值。
第三四分位数与第一四分位数的差距又称四分位间距。

箱型图有个功能就是可以检测这组数据是否存在异常值。异常值在哪里呢?就是在上边缘和下边缘的范围之外。

我们使用公司验证客户贷款资格的一些数据来做展示,下面是一些数据变量及其描述。

这里写图片描述

 

数据如下所示:

下面的代码使用pd.read_csv()从csv文件中读取数据,并绘制箱型图:

绘制的箱线图如下所示:

这里写图片描述

 

从箱线图中我们可以看到,毕业生和非毕业生的平均收入没有实质性差异。但是,收入水平很高的毕业生人数更多,而这些毕业生似乎都是异常值。

posted @ 2018-09-30 10:57  康永年  阅读(2359)  评论(0编辑  收藏  举报
友情链接:回力 | 中老年女装 | 英语口语培训 | 托福培训 | 雅思周末班