创建箱线图

直方图和密度图是展示数据分布的两种形式。通常只需要几个关键的分位数,我们就能对数
据的整体分布有一个印象。箱线图(或称为盒须图,box-and-whisker plot)是完成此项任务的简单
方式。对于一个随机生成的数值向量,我们可以调用boxplot( )来绘制箱线图,如图7-28所示。
x <- rnorm(1000)
boxplot(x)

 


图 7-28
箱线图有几个组成部分,分别展示了数据关
键的分位数水平和异常值。图 7-29 清楚地说明
了箱线图各个部分所表示的含义:
其中 IQR 表示四分位距,即有:IQR= 上四
分位数−下四分位数。
以下代码绘制每个航空公司飞行速度的箱
线图。我们将 16 个箱线图展示在同一个图中,
以便对不同航空公司的数据做一个粗略的比较。
接下来,我们使用公式 distance/air_time~
carrier说明y轴表示由distance/air_time
计算得到的飞行速度,x 轴表示航空公司。用这种表示方法,我们得到图 7-30。
boxplot(distance /air_time ~ carrier, data = flights,
main = "Box plot of flight speed by carrier")
我们使用了boxplot( )中创建图形的公式接口。这里distance/air_time ~ carrier
的主要含义是:y 轴表示 distance/air_time 的值,即飞行速度;x 轴表示不同的航空
公司。data=flights 告诉 boxplot( )到哪里找公式中指定的变量。最后,生成了按
航空公司分类的飞行速度的箱线图。

 


图 7-29

 


图 7-30
数据可视化和数据分析的公式接口非常易于理解且功能强大。下一节将介绍数据分析
的基本工具和模型。若想使模型拟合的关系更易于识别,那么在实现这些工具和模型的函
数背后,不仅依赖于算法,更依赖于用户友好的界面(公式)。
还有一些包是专门为数据可视化量身定制的。其中一个非常优秀的是 ggplot2 扩展
包,它实现了非常强大的图形语法,用于创建、撰写和自定义不同类型图形。然而,ggplot2
不在本书的介绍范围。如果想了解更多,推荐阅读 Hadley Wickham 编写的 ggplot2: Elegant
Graphics for Data Analysis。

posted @ 2019-01-22 14:35  NAVYSUMMER  阅读(411)  评论(0编辑  收藏  举报
交流群 编程书籍