《R语言入门与实践》第十章:向量化编程
前言
作者 Garrett Grolemund 将”利用 R 的三大法宝:
- 逻辑判断
- 取子集
- 按元素方式执行
来达到编写高效的代码的目的.
这样的代码的特点是可以接受整个向量作为输入,并同时处理向量中的元素.
作者通过以下几个案例来阐述向量化编程
预备知识
rep() 函数
格式: rep(c(-1, 1), 5000000)
功能:接受某个值/向量以及次数,返回该值/向量的重复执行次数长度的更长的向量
system.time() 函数
格式: system.time(function(object))
功能:输入一个语句,返回执行该语句所耗费的时间.
向量化代码
向量化代码的定义
可以接受一个含有多个值的向量作为输入,并且同时操作向量中的每一个元素
如何编写向量化代码
原则:
- 尽量使用向量化的函数来完成任务:比如使用 R 库中的原函数
- 对于重复的情况,使用逻辑值取子集的方法,而不是 for & if 的方法.
方法一:使用向量化的函数/查找表
程序①——未经向量化
change_symbols <- function(vec){
for(i in 1:length(vec)){
if(vec[i] == "DD"){
vec[i] <- "joker"
}else if(vec[i] == "C"){
vec[i] <- "ace"
}else if(vec[i] == "7"){
vec[i] <- "king"
}else if(vec[i] == "B"){
vec[i] <- "queen"
}else if(vec[i] == "BB"){
vec[i] <- "jack"
}else if(vec[i] == "BBB"){
vec[i] <- "ten"
}else{
vec[i] <- "nine"
}
}
vec
}
程序②——向量化
change_vec <- function(vec){
prob <- c("DD" = "joker", "C" = "ace"...)
unname(prob[vec])
}
方法二:逻辑值取子集
目的:一次性完成对一类情况中的所有元素的操作
案例:
程序①——未经向量化
abs_loop <- function(vec){
for(i in 1:length(vec)){
if(vec[i] < 0){
vec[i] <- -vec[i]
}
}
vec
}
程序②——向量化
abs_set <- function(vec){
negs <- vec < 0
vec[negs] <- vec[negs] * -1
vec
}
未向量化的程序:
if 语句一次只能针对一个元素进行判断,来判断出 vec 中为负数的元素
向量化的程序:
其中, vec < 0 为逻辑测试,返回一个包含 TRUE, FALSE 逻辑值的向量 negs, 通过逻辑值取子集的方法,得到 vec 中为负数的元素, 即 vec[negs].
如何在 R 中编写出快速的 for 循环
原则:
- 能放在循环外的代码,就一定不要放在循环内
- 确保用来储存循环输出结果的对象必须具备足够的容量,以容纳循环的结果
范例:一个循环 1000000 次并赋值的 for 循环
在 for 循环之前,定义好一个含有 1000000 个 NA 值的向量.
在 for 循环之中, 对于对一个向量中的元素进行相应的操作.