R的基本用法2
knitr::opts_chunk$set(echo = TRUE)
R-basics
R变量的命名格式
- 必须以字母开头
- 只能包含字母、数字、下划线和
.
。 - 对大小写敏感
- 不能是保留关键字
数据类型(mode)
numeric
(10.5, 55, 787)integer
(1L, 55L, 100L, where the letter "L" declares this as an integer)complex
(9 + 3i, where "i" is the imaginary part)character
(a.k.a. string)logical
(a.k.a. boolean)
例如:mode(a) #numeric
而typeof(a) #double
types "integer" and "double" are returned as "numeric" mode.
class(), mode(), typeof()
三者的差异:
class()
对象的数据结构:vector、matrix、array、dataframe、list
mode()
对象数据类型。
typeof()
查看数据元素类型,基本等同于mode(),比mode()更为详细
x <- 10.5
x <- 1000L
x <- 9i + 3
x <- "R is exciting"
x <- TRUE
注意
- TRUE/FALSE是全大写
- 复数是i,python里复数是j
- 要创建
integer
变量,必须L
在整数值后面使用字母;如果不加L
那一定是numeric
变量。
您可以使用以下功能从一种类型转换为另一种类型:
as.numeric()
as.integer()
as.complex()
x <- 1L
a <- as.numeric(x)
class(a)
min()
andmax()
函数可用于查找集合中的最小或最大数字sqrt()
abs()
ceiling()
,floor()
sign()
正数返回1,负数返回-1,0返回0.
字符串
nchar()
求字符串长度grepl()
检查字符串中是否存在字符或字符序列,return TRUE/FALSE,grepl("H", str)
paste()
函数连接两个字符串paste(str1, str2)
- 转义字符
\
注意:
"
和'
是等价的- 正常情况下
character
就是用一行输出,如果加上cat()
会按照代码块里的换行格式输出。
str<-"Lorem ipsum dolor sit amet,
consectetur adipiscing elit,
sed do eiusmod tempor incididunt
ut labore et dolore magna aliqua."
cat(str)
- 如果使用了转义字符,直接用变量名输出会显示
\
。如果不像要\
, 就用cat()
。
、
Logical
注意是TRUE
、FALSE
, 可以用T
、F
代替。
operator
^
Exponent%%
取模%/%
整除(余数部分不要)
赋值
<-
<<-
全局赋值- 也可以改变赋值运算符的方向。
x <- 3
等于3 -> x
比较运算符
- ==
- !=
-
=
逻辑运算符
- 按位
&
|
- 逻辑
&&
,||
,!
其他运算符
:
生成一组数x <- 1:10
%in%
Find out if an element belongs to a vectorx %in% y
%*%
矩阵乘法x <- Matrix1 %*% Matrix2
Vectors
向量默认是列向量
# Vectors
fruits <- c("banana","apple","orange")
vec_seq3 <- seq(1, 10, by = 3)
vec_pattern <- rep(1:3, times = 4) #123重复4次
vec_pattern2 <- rep(1:3, times = 4, each = 2) #112233重复4次
numbers <-1:10 #默认间隔为1
numbers1 <-1.5:6.5 #默认间隔为1,左闭右闭[]
numbers2 <-1.5:6.3 #默认间隔为1,这里最后一个数是5.5
numbers <- seq(from=0, to=100, by=20) #生成其他间隔的序列数据
fruits[1]
fruits[c(1,3)] #索引访问第1个元素、和第3个元素。R中索引从1开始。支持负索引。
fruits[1] <-"pear"
注意:
- 索引从1开始
1:10
是左闭右闭的
向量计算
vec <- c(1, 2, 5)
vec * 2 #每个位置上的数都会*2
Vectors Functions
length()
sort()
Factors
Factor 用来处理 categorize data.
four_seasons <- c("spring", "summer", "autumn", "winter")
four_seasons_factor <- factor(four_seasons) ##factor出来会变成字母序,可以指定levels
four_seasons_factor <- factor(four_seasons, levels = c("spring", "summer", "autumn", "winter"))
four_seasons_factor[1]
four_seasons_factor[1] <- "no_spring" #只能赋成levels里已经存在的factor
Factors Functions```
library(UsingR)
data <- kid.weights
summary(data)
- `length()` 输出factor的个数
- `levels(data_factor)` 只想输出levels
##### 数据类型转换
R 中向量里每个元素的类型是一样的,若不同,会强制转换成一致的。
>character > numeric > logical
> double > integer
### Lists
List 可以包含多种数据类型
```{r}
thislist <- list("apple",TRUE,123)
thislist[1]
thislist[1] <-"blackcurrant"
Lists Functions
length()
%in%
看一个元素是否在list
中append()
append(thislist,"orange", after =2)
- index(索引)的使用
thislist[2:5]
- 组合两个list
list1 <- list("a", "b", "c")
list2 <- list(1,2,3)
list3 <- c(list1,list2)
矩阵
mat <- matrix(data = c(2, 4, 6, 7, 8, 10), nrow = 2, ncol = 3, byrow = FALSE) #默认按着列来排
mat[2,] #访问第二行
mat[,3] #访问第三列
mat[2,3]#访问(2,3)
mat[c(1,2),]#访问1,2行
newmatrix <- cbind(mat, c("strawberry", "blueberry", "raspberry")) #column combination加上一列,list的长度必须和矩阵的行数相同
newmatrix <- rbind(mat, c("strawberry", "blueberry", "raspberry")) #row combination
mat <- mat[-c(1), -c(1)] #删除第一行和第一列
一些函数
%in%
看矩阵中有没有对应元素"apple" %in% thismatrix
dim()
看矩阵几行几列length()
看矩阵一共有多少元素rbind()
和rbind()
也可以用于合并两个矩阵Matrix_Combined <- rbind(Matrix1, Matrix2)
*
是两个矩阵对应的点相乘%*%
是矩阵乘法
矩阵计算函数
t(A) #取转置
diag(A) #square matrix 求对角
det(A)
solve(A) #inverse
eigen(A)
sum(A) #每个位置上的数的和
mean(Aˆ2) #其他运算符同理
Aˆ2 #每个位置上的数平方
A * B #对应位置上的数相乘
B %*% C #叉乘
Arrays
定义高维矩阵(数组)
arr <- array(1:24, c(4, 3, 2), dimnames = list(dim1, dim2, dim3))
arr[2,3,2]
arr[c(1),,1] #仍然可以使用雷同的访问方式
Dataframe
每一列可以数据类型不同,但是同一列里数据类型必须相同。
df <- data.frame(name = c("Alice", "Bob", "Carl"),
age = c(23, 34, 23),
marriage = c(TRUE, FALSE, TRUE),
color = c("red", "blue", "orange"))
#访问一列有三种方式
df[1]
df[["name"]]
df$name
#删除第一行和第一列
Data_Frame_New <- df[-c(1), -c(1)]
Dataframe functions
summary(df)
可以求df每一列的general统计数据cbind()
和rbind()
也可以用于合并两个dataframeNew_row_DF <- rbind(Data_Frame, c("Strength", 110, 110))
ncol(df)
,nrow(df)
来求列数和行数dim(df)
length()
数值计算函数
sum(1:8)
prod(3:5) #product
min(c(1, 5, -10, 300))
max(c(9, 2, -2))
range(c(1, 5, -10, 300))
mean(1:10)
var(1:10)
sd(1:10)
median(1:10)
quantile(1:10)
factorial(4)
exp(0:3)
log(1:10)
round(3.833) #默认是四舍五入到整数
round(3.833, digits = 1)
ceiling(3.83)
floor(3.83)
choose(4, 2) #组合数
which(c(1, 6, -3, -7, 0) <= 0)
any(c(1, 6, -3, -7, 0) <= 0)
all(c(1, 6, -3, -7, 0) <= 0)
IF ELSE
和C++语法一样
if (b > a) {
("b is greater than a")
} else if (a == b) {
print("a and b are equal")
} else {
print("a is greater than b")
}
WHILE
语法同C++
区别
- C++中是
continue
, R里是next
FOR
#sequential index
for (x in 1:10) {
print(x)
}
#list
fruits <- list("apple", "banana", "cherry")
for (x in fruits) {
print(x)
}
#matrix
for (rows in 1:nrow(thismatrix)) {
for (columns in 1:ncol(thismatrix)) {
print(thismatrix[rows, columns])
}
}
#array
for(x in multiarray){
print(x)
}
FUNCTION
my_function <- function(fname = 'no_name') {
paste(fname, "Griffin")
return "hhhh"
}
my_function("Peter")
R中可以function里定义function
Outer_func <- function(x) {
Inner_func <- function(y) {
a <- x + y
return(a)
}
return (Inner_func)
}
output <- Outer_func(3) # To call the Outer_func
output(5) # To call Inner_func
全局变量
- 在函数之外定义的是全局变量
- 如果使用赋值运算符
<<-
,则变量属于全局范围 - 如果要更改函数内的全局变量,请使用全局赋值运算符
lecture2上节课剩下的
x<-cbind(x1=3,x2=c(4:1,2:4))
dimnames(x)[[1]]<-letters[1:7]
n_col<-ncol(x)
col_sum<-rep(0,n_col)
for(j in 1:n_col){
col_sum[j]<-sum(x[,j])
}
col_sum
names(col_sum) <- colnames(x)
事实上,上面的代码可以直接用apply
实现
两种方式:
edit()
自动生成一个红色的表格,列名会自动的放上去,不够的会显示var5,var6,var7
mydata <- data.frame(
age = numeric(0),
gender = character(0),
weight = numeric(0)
)
mydata <- edit(mydata)
read.table(file,options)
mydatatxt <- "
age gender weight
25 m 166
30 f 115
18 f 120 "
mydata <- read.table(header = TRUE, text = mydatatxt)
options:
header
sep
delimiter 分隔符row.names
col.names
na.strings
read_table(), read_csv(), read_csv2(), read_delim(), read_delim2()
除了默认的分隔符不同,其他都是相同的,csv是逗号,delim是tab
(tsv)。
数据集的一些基本操作
head()
输出dataframe的前六行Length
查看一列的所有的值attach & detach
添加和删除路径索引is.data.frame(A)
返回一个logical值