《R语言实战》读书笔记--第一章 R语言介绍

1、典型的数据分析过程可以总结为一下图形:

V{FXKCO8GI9OCRM2E9XW39I

注意,在模型建立和验证的过程中,可能需要重新进行数据清理和模型建立。

2、R语言一般用 <- 作为赋值运算符,一般不用 = ,原因待考证。用->也可以。

3、

age <- c(1,3,5,2,11,9,3,9,12,3)
weight <- c(4.4,5.3,7.2,5.2,8.5,7.3,6.0,10.4,10.2,6.1)
mean(weight)
sd(weight)
cor(age,weight)
plot(age,weight)

上面这一段代码是基本的展示,其中

sd:求标准差函数。

cor:求相关(线性)系数,相关阵或者协方差阵。

下面是涉及到的几个函数:

demo:示例函数,后面加具体函数会有示例展示,不加参数显示demo列表。特别的,用demo可以查看不少漂亮的图例,demo下面的参数有很多,有着不同的功能,下面贴一下执行demo()之后得到的结果。

Demos in package ‘base’:

error.catching     More examples on catching and
                   handling errors
is.things          Explore some properties of R objects
                   and is.FOO() functions. Not for
                   newbies!
recursion          Using recursion for adaptive
                   integration
scoping            An illustration of lexical scoping.

Demos in package ‘graphics’:

Hershey            Tables of the characters in the
                   Hershey vector fonts
Japanese           Tables of the Japanese characters in
                   the Hershey vector fonts
graphics           A show of some of R's graphics
                   capabilities
image              The image-like graphics builtins of R
persp              Extended persp() examples
plotmath           Examples of the use of mathematics
                   annotation

Demos in package ‘grDevices’:

colors             A show of R's predefined colors()
hclColors          Exploration of hcl() space

Demos in package ‘stats’:

glm.vr             Some glm() examples from V&R with
                   several predictors
lm.glm             Some linear and generalized linear
                   modelling examples from `An
                   Introduction to Statistical
                   Modelling' by Annette Dobson
nlm                Nonlinear least-squares using nlm()
smooth             `Visualize' steps in Tukey's
                   smoothers


Use ‘demo(package = .packages(all.available = TRUE))’
to list the demos in all *available* packages.

其中,graphics是一个包,用来画图形。试一试这些参数看看都是什么效果:

Hershey:一种字体,赫尔希研发的矢量字体,用来渲染文本用的;

其他的看说明能猜到,有一些:

persp:貌似用来画三维图形;

plotmath:数学公式的对应的函数名称,可能会很有用以后;

is.things:is.XXX的各种函数列表;

recursion:跟递归有关系……;

colors:R内置的颜色,很多彩;

hclColors:颜色扩充,更多姿多彩了!。

4、关于R中的帮助,用的最多的就是?+函数名了,没想到还有这些可以用:

D_])09H3U2Z7P%U4XCGJI`0

感觉用?和??最方便,不过没怎么试过example,下回试试;另外,貌似apropos可能适合乱找一些相关函数;data()挺好,可以看现在那些数据集可以用,比如用过的iris就可以看到到;vignette函数可以查看安装的包里面的vignette文档,先用vignette()查看文档名,再用vignette(文档名)就可以直接打开文档。

5、R工作空间管理函数:

S9AHGDBKD5E7NIZJ1{IYR)U

其中,删除所有变量的语句为:rm(list = ls(all = TRUE)).用options()命令可以设置一些环境变量,比如options(digits=10),这个命令,可以把R的整数表示能力设为10位(来自:http://blog.csdn.net/aldenphy/article/details/9405305)。R语言中的正斜杠‘/’表示目录,比如“E:/R”,而反斜杠‘\’表示转义字符。setwd函数不会创建不存在的文件夹,可以用dir.create函数创建目录。以后每次开始的时候先设置一个目录是极好的!

sink函数第一次听说:sink函数可以将文件重定向到文件中,参数append=TRUE,可以在文件总追加,而不是覆盖。sink函数从sink(file=”example”)开始,向example中输出文本结果,直到遇到sink()这时候向example的输出结束。

关于图形输出,可以用下面的函数:

image

以上函数的规则是,举个例子,用pdf(“filename.pdf”)函数打开一个pdf文件,然后在执行一些图形命令,直到遇到dev.off()函数,向filename.pdf输出图形的工作结束。

ps.吐槽一句,书上写的太模糊了,不实地操作就会比较困惑……

函数.libPaths()函数可以显示包储存的位置,search()函数可以直到哪些包已经加载并且可以使用。install.packages()可以显示一个cran镜像点的列表(我的rstudio报错)。installed.packages()函数可以列出已经安装的包和信息。update.packages()函数可以更新包。由于每次打开R包的加载信息都会丢失,可以设置启动环境,从而自动加载常用的包。对于如何查看包的信息,可以用函数help(package = “package_name”)来查看包中函数列表和数据集列表以及包的简短描述。

R语言可以执行批处理命令,执行R.exe??现在还搞不清楚怎么回事,网上说.exe形式是没有必要的。

关于大数据集的处理,书上说R可以处理GB到TB级的数据分析问题,但是需要专门的工具实现。R有一点不好,保存的所有东西都会放在内存里,这就导致小的内存处理的数据集有限制,我做阿里比赛的时候就有感觉了……书上说附录G有解决大数据集的方法。

下面是一个实例实战:

help.start()       #这里是打开Introduction to R
install.packages("vcd")
help(package="vcd")
library(vcd)
help(Arthritis)
Arthritis
example(Arth)

其中,vcd包是一个关于可视化类别数据的包,将在第11章使用.

posted @ 2015-07-31 20:45  司空格子Ored  阅读(1942)  评论(1编辑  收藏  举报