How To Use ggplot in ggplot2？

1、What is ggplot2

ggplot2基本要素

数据（Data）和映射（Mapping）
几何对象（Geometric）
标尺（Scale）
统计变换（Statistics）
坐标系统（Coordinante）
图层（Layer）
分面（Facet）

这里将从这些基本要素对ggplot2进行介绍。

2、数据（Data）和映射（Mapping)

以R自带的钻石的数据为例，由于样本量十分巨大，我们随机取一个子集来画图。参考：https://www.plob.org/article/7264.html 的随机取样方法：

require(ggplot2)
data(diamonds)
set.seed(42)
small <- diamonds[sample(nrow(diamonds), 1000), ]
head(small)

画图实际上是把数据中的变量映射到图形属性上。以克拉(carat)数为X轴变量，价格(price)为Y轴变量。

p <- ggplot(data = small, mapping = aes(x = carat, y = price))

上面这行代码把数据映射X，Y坐标轴上，需要告诉ggplot2，这些数据要映射成什么样的几何对象，下面以散点为例：

p + geom_point()

几何对象将在下面的小节介绍，这一节，关注的是数据和图形属性之间的映射。

如果想将切工（cut）映射到形状属性。只需要：

p <- ggplot(data=small, mapping=aes(x=carat, y=price, shape=cut)) 
p+geom_point()

再比如我想将钻石的颜色（color）映射颜色属性：

p <- ggplot(data=small, mapping=aes(x=carat, y=price, shape=cut, colour=color))
p+geom_point()

3、几何对象（Geometric）

在上面的例子中，各种属性映射由ggplot函数执行，只需要加一个图层，使用geom_point()告诉ggplot要画散点，于是所有的属性都映射到散点上。

geom_point()完成的就是几何对象的映射，ggplot2提供了各种几何对象映射，如geom_histogram用于直方图，geom_bar用于画柱状图，geom_boxplot用于画箱式图等等。

不同的几何对象，要求的属性会有些不同，这些属性也可以在几何对象映射时提供，比如上一图，也可以用以下语法来画：

p <- ggplot(small) 
p+geom_point(aes(x=carat, y=price, shape=cut, colour=color))

ggplot2支持图层，我通常把不同的图层中共用的映射提供给ggplot函数，而某一几何对象才需要的映射参数提供给geom_xxx函数。

这一小节我们来看一下各种常用的几何对象。

直方图

直方图最容易，提供一个x变量，画出数据的分布。

ggplot(small)+geom_histogram(aes(x=price))

柱状图

柱状图非常适合于画分类变量。在这里以透明度（clarity）变量为例。按照不同透明度的钻石的数目画柱状图。

ggplot(small)+geom_bar(aes(x=clarity))

柱状图两个要素，一个是分类变量，一个是数目，也就是柱子的高度。数目在这里不用提供，因为ggplot2会通过x变量计算各个分类的数目。

当然你想提供也是可以的，通过stat参数，可以让geom_bar按指定高度画图，比如以下代码：

ggplot()+geom_bar(aes(x=c(LETTERS[1:3]),y=1:3), stat="identity")

柱状图和直方图是很像的，直方图把连续型的数据按照一个个等长的分区（bin）来切分，然后计数，画柱状图。而柱状图是分类数据，按类别计数。

密度函数图

geom_density用于绘制密度函数图

ggplot(small)+geom_density(aes(x=price, colour=cut))

ggplot(small)+geom_density(aes(x=price,fill=clarity))
#colour：曲线的颜色，fill是往曲线下面填充颜色。

箱式图

ggplot(small)+geom_boxplot(aes(x=cut, y=price,fill=color))

geom_boxplot将数据映射到箱式图上，上面的代码按切工(cut)分类，对价格(price)变量画箱式图，再分开按照color变量填充颜色。

4、标尺（Scale）

前面我们已经看到了，画图就是在做映射，不管是映射到不同的几何对象上，还是映射各种图形属性。这一小节介绍标尺，在对图形属性进行映射之后，使用标尺可以控制这些属性的显示方式，比如坐标刻度，可能通过标尺，将坐标进行对数变换；比如颜色属性，也可以通过标尺，进行改变。

ggplot(small)+geom_point(aes(x=carat, y=price, shape=cut, colour=color))+scale_y_log10()+scale_colour_manual(values=rainbow(7))
#以数据（Data）和映射（Mapping)一节中所画散点图为例，将Y轴坐标进行log10变换，再自己定义颜色为彩虹色。

5、统计变换（Statistics）

统计变换对原始数据进行某种计算，然后在图上表示出来，例如对散点图上加一条回归线。

ggplot(small, aes(x=carat, y=price))+geom_point()+scale_y_log10()+stat_smooth()

这里就不按颜色、切工来分了，不然ggplot会按不同的分类变量分别做回归，图就很乱，如果我们需要这样做，我们可以使用分面，这个将在后面介绍。

这里，aes所提供的参数，就通过ggplot提供，而不是提供给geom_point，因为ggplot里的参数，相当于全局变量，geom_point()和stat_smooth()都知道x,y的映射，如果只提供给geom_point()，则相当于是局部变量，geom_point知道这种映射，而stat_smooth不知道。

6、坐标系统（Coordinante）

坐标系统控制坐标轴，可以进行变换，例如XY轴翻转，笛卡尔坐标和极坐标转换，以满足我们的各种需求。

坐标轴翻转由coord_flip()实现

ggplot(small)+geom_bar(aes(x=cut, fill=cut))+coord_flip()

而转换成极坐标可以由coord_polar()实现：

ggplot(small)+geom_bar(aes(x=factor(1), fill=cut))+coord_polar(theta="y")

这也是为什么之前介绍常用图形画法时没有提及饼图的原因，饼图实际上就是柱状图，只不过是使用极坐标而已，柱状图的高度，对应于饼图的弧度，饼图并不推荐，因为人类的眼睛比较弧度的能力比不上比较高度（柱状图）

还可以画靶心图：

ggplot(small)+geom_bar(aes(x=factor(1), fill=cut))+coord_polar()

以及风玫瑰图(windrose)

ggplot(small)+geom_bar(aes(x=clarity, fill=cut))+coord_polar()

7、图层（Layer）

photoshop流行的原因在于PS 3.0时引入图层的概念，ggplot的牛B之处在于使用+号来叠加图层，这堪称是泛型编程的典范。
在前面散点图上，我们已经见识过，加上了一个回归线拟合的图层。

ggplot(small, aes(x=carat, y=price))+geom_point()+scale_y_log10()+stat_smooth()

8、分面（Facet）

分面可以让我们按照某种给定的条件，对数据进行分组，然后分别画图。

在统计变换一节中，提到如果按切工分组作回归线，显然图会很乱，有了分面功能，我们可以分别作图。

ggplot(small, aes(x=carat, y=price))+geom_point(aes(colour=cut))+scale_y_log10() +facet_wrap(~cut)+stat_smooth()

posted @ 2017-03-22 15:01 REAY 阅读(385) 评论(0) 收藏举报

刷新页面返回顶部

REAY