R的基本用法2

knitr::opts_chunk$set(echo = TRUE)

R-basics

R变量的命名格式

必须以字母开头
只能包含字母、数字、下划线和.。
对大小写敏感
不能是保留关键字

数据类型（mode）

numeric (10.5, 55, 787)
integer (1L, 55L, 100L, where the letter "L" declares this as an integer)
complex (9 + 3i, where "i" is the imaginary part)
character(a.k.a. string)
logical(a.k.a. boolean)

例如：mode(a) #numeric 而typeof(a) #double
types "integer" and "double" are returned as "numeric" mode.

class(), mode(), typeof() 三者的差异：
class() 对象的数据结构：vector、matrix、array、dataframe、list
mode() 对象数据类型。
typeof()查看数据元素类型，基本等同于mode()，比mode()更为详细

x <- 10.5
x <- 1000L
x <- 9i + 3
x <- "R is exciting"
x <- TRUE

注意

TRUE/FALSE是全大写
复数是i，python里复数是j
要创建integer变量，必须L在整数值后面使用字母；如果不加L那一定是numeric变量。

您可以使用以下功能从一种类型转换为另一种类型：

as.numeric()
as.integer()
as.complex()

x <- 1L
a <- as.numeric(x)
class(a)

min()andmax()函数可用于查找集合中的最小或最大数字
sqrt()
abs()
ceiling(), floor()
sign() 正数返回1，负数返回-1，0返回0.

字符串

nchar()求字符串长度
grepl()检查字符串中是否存在字符或字符序列，return TRUE/FALSE， grepl("H", str)
paste()函数连接两个字符串 paste(str1, str2)
转义字符\

注意：

" 和'是等价的
正常情况下character就是用一行输出，如果加上cat()会按照代码块里的换行格式输出。

str<-"Lorem ipsum dolor sit amet,  
consectetur adipiscing elit,  
sed do eiusmod tempor incididunt  
ut labore et dolore magna aliqua."  
  
cat(str)

如果使用了转义字符，直接用变量名输出会显示\。如果不像要\，就用cat()。

、

Logical

注意是TRUE、FALSE, 可以用T、F代替。

operator

^ Exponent
%% 取模
%/% 整除（余数部分不要）

赋值

<-
<<- 全局赋值
也可以改变赋值运算符的方向。x <- 3 等于 3 -> x

比较运算符

逻辑运算符

按位& |
逻辑&&,||,!

其他运算符

: 生成一组数 x <- 1:10
%in% Find out if an element belongs to a vectorx %in% y
%*% 矩阵乘法x <- Matrix1 %*% Matrix2

Vectors

向量默认是列向量

# Vectors
fruits <- c("banana","apple","orange")
vec_seq3 <- seq(1, 10, by = 3)
vec_pattern <- rep(1:3, times = 4) #123重复4次
vec_pattern2 <- rep(1:3, times = 4, each = 2) #112233重复4次 
numbers <-1:10 #默认间隔为1
numbers1 <-1.5:6.5  #默认间隔为1,左闭右闭[]
numbers2 <-1.5:6.3  #默认间隔为1，这里最后一个数是5.5
numbers <- seq(from=0, to=100, by=20) #生成其他间隔的序列数据

fruits[1]
fruits[c(1,3)] #索引访问第1个元素、和第3个元素。R中索引从1开始。支持负索引。

fruits[1] <-"pear"

注意：

索引从1开始
1:10是左闭右闭的

向量计算

vec <- c(1, 2, 5)
vec * 2 #每个位置上的数都会*2

Vectors Functions

length()
sort()

Factors

Factor 用来处理 categorize data.

four_seasons <- c("spring", "summer", "autumn", "winter") 
four_seasons_factor <- factor(four_seasons) ##factor出来会变成字母序,可以指定levels
four_seasons_factor <- factor(four_seasons, levels = c("spring", "summer", "autumn", "winter"))

four_seasons_factor[1]
four_seasons_factor[1] <- "no_spring" #只能赋成levels里已经存在的factor

Factors Functions```

library(UsingR)
data <- kid.weights
summary(data)

- `length()` 输出factor的个数
- `levels(data_factor)` 只想输出levels


##### 数据类型转换

R 中向量里每个元素的类型是一样的，若不同，会强制转换成一致的。
>character > numeric > logical 
> double > integer


### Lists
List 可以包含多种数据类型
```{r}
thislist <- list("apple",TRUE,123)
thislist[1]
thislist[1] <-"blackcurrant"

Lists Functions

length()
%in% 看一个元素是否在list中
append() append(thislist,"orange", after =2)
index（索引）的使用thislist[2:5]
组合两个list

list1 <- list("a", "b", "c")  
list2 <- list(1,2,3)  
list3 <- c(list1,list2)

矩阵

mat <- matrix(data = c(2, 4, 6, 7, 8, 10), nrow = 2, ncol = 3, 	byrow = FALSE) #默认按着列来排
mat[2,] #访问第二行
mat[,3] #访问第三列
mat[2,3]#访问（2，3）
mat[c(1,2),]#访问1，2行
newmatrix <- cbind(mat, c("strawberry", "blueberry", "raspberry")) #column combination加上一列，list的长度必须和矩阵的行数相同
newmatrix <- rbind(mat, c("strawberry", "blueberry", "raspberry")) #row combination
mat <- mat[-c(1), -c(1)] #删除第一行和第一列

一些函数

%in%看矩阵中有没有对应元素 "apple" %in% thismatrix
dim() 看矩阵几行几列
length()看矩阵一共有多少元素
rbind()和rbind()也可以用于合并两个矩阵Matrix_Combined <- rbind(Matrix1, Matrix2)
*是两个矩阵对应的点相乘
%*%是矩阵乘法

矩阵计算函数

t(A) #取转置
diag(A) #square matrix 求对角
det(A) 
solve(A) #inverse
eigen(A) 
sum(A) #每个位置上的数的和
mean(Aˆ2) #其他运算符同理
Aˆ2 #每个位置上的数平方
A * B #对应位置上的数相乘
B %*% C #叉乘

Arrays

定义高维矩阵（数组）

arr <- array(1:24, c(4, 3, 2), dimnames = list(dim1, dim2, dim3))
arr[2,3,2]
arr[c(1),,1] #仍然可以使用雷同的访问方式

Dataframe

每一列可以数据类型不同，但是同一列里数据类型必须相同。

df <- data.frame(name = c("Alice", "Bob", "Carl"), 
				age = c(23, 34, 23), 
				marriage = c(TRUE, FALSE, TRUE), 
				color = c("red", "blue", "orange"))

#访问一列有三种方式
df[1]
df[["name"]]
df$name

#删除第一行和第一列
Data_Frame_New <- df[-c(1), -c(1)]

Dataframe functions

summary(df) 可以求df每一列的general统计数据
cbind()和rbind()也可以用于合并两个dataframe New_row_DF <- rbind(Data_Frame, c("Strength", 110, 110))
ncol(df), nrow(df)来求列数和行数
dim(df)
length()

数值计算函数

sum(1:8) 
prod(3:5) #product
min(c(1, 5, -10, 300)) 
max(c(9, 2, -2)) 
range(c(1, 5, -10, 300)) 
mean(1:10) 
var(1:10) 
sd(1:10) 
median(1:10) 
quantile(1:10)

factorial(4) 
exp(0:3) 
log(1:10) 
round(3.833) #默认是四舍五入到整数
round(3.833, digits = 1) 
ceiling(3.83) 
floor(3.83) 
choose(4, 2) #组合数

which(c(1, 6, -3, -7, 0) <= 0) 
any(c(1, 6, -3, -7, 0) <= 0) 
all(c(1, 6, -3, -7, 0) <= 0)

IF ELSE

和C++语法一样

if (b > a) {  
  ("b is greater than a")  
} else if (a == b) {  
  print("a and b are equal")  
} else {  
  print("a is greater than b")  
}

WHILE

语法同C++
区别

C++中是continue， R里是next

FOR

#sequential index
for (x in 1:10) {  
  print(x)  
}

#list
fruits <- list("apple", "banana", "cherry")  
for (x in fruits) {  
  print(x)  
}

#matrix
for (rows in 1:nrow(thismatrix)) {  
  for (columns in 1:ncol(thismatrix)) {  
    print(thismatrix[rows, columns])  
  }  
}

#array
for(x in multiarray){  
  print(x)  
}

FUNCTION

my_function <- function(fname = 'no_name') {  
  paste(fname, "Griffin")  
  return "hhhh"
}  
  
my_function("Peter")

R中可以function里定义function

Outer_func <- function(x) {  
  Inner_func <- function(y) {  
    a <- x + y  
    return(a)  
   }  
  return (Inner_func)  
}  
output <- Outer_func(3) # To call the Outer_func  
output(5) # To call Inner_func

全局变量

在函数之外定义的是全局变量
如果使用赋值运算符<<-，则变量属于全局范围
如果要更改函数内的全局变量，请使用全局赋值运算符

lecture2上节课剩下的

x<-cbind(x1=3,x2=c(4:1,2:4))
dimnames(x)[[1]]<-letters[1:7]

n_col<-ncol(x)
col_sum<-rep(0,n_col)
for(j in 1:n_col){
	col_sum[j]<-sum(x[,j])
}
col_sum
names(col_sum) <- colnames(x)

事实上，上面的代码可以直接用apply实现

两种方式：

edit()自动生成一个红色的表格，列名会自动的放上去，不够的会显示var5,var6,var7

mydata <- data.frame(
  age = numeric(0),
  gender = character(0),
  weight = numeric(0)
)
mydata <- edit(mydata)

read.table(file,options)

mydatatxt <- " 
age gender weight 
25 m 166 
30 f 115 
18 f 120 " 
mydata <- read.table(header = TRUE, text = mydatatxt)

options:

header
sep delimiter 分隔符
row.names
col.names
na.strings

read_table(), read_csv(), read_csv2(), read_delim(), read_delim2()除了默认的分隔符不同，其他都是相同的，csv是逗号，delim是tab（tsv）。

数据集的一些基本操作

head()输出dataframe的前六行
Length查看一列的所有的值
attach & detach添加和删除路径索引
is.data.frame(A)返回一个logical值

posted @ 2022-12-15 18:07 爱吃番茄的玛丽亚阅读(147) 评论(0) 收藏举报

刷新页面返回顶部

pny01

热爱可抵岁月漫长~