R做并行计算
R本身虽然只能以单线程的方式运行与计算,但它有大量的包提供了方便而多样的并行计算方式,支持包括SOCKET、MPI、PVM、NWS等等多种线程沟通方式。最流行最成熟的当然是MPI了,Rmpi包也因此相当受欢迎,在它的基础上可以实现各种MPI支持的并行编程范式。但要论简单易用,支持协议的多样性,就得说说snow包及其简化包装版snowfall包了。snow支持上面提到的四种线程沟通协议,所以即使没有安装MPI或者对MPI了解不多,最基本的也可以直接使用SOCKET方式快速上手。而有了snowfall,更是使得并行化的计算变得如同平常编程一般的简单。
由于这些包是为R而扩展的,所以跟R的矢量式编程思想能无缝地结合,只要你的程序已经用矢量化语言描述出来(比如R的apply系列函数或简单矩阵运算),再移植到snowfall并行计算平台几乎就是0成本。
下面通过两个简单的函数来说明snowfall的使用及其性能。在运行测试函数之前都需要先载入snowfall包,即library(snowfall)
测试函数1:
foo <- function(i){ cat(sprintf('log: item %s', i)) return(2^i) } test.base <- function(){ x = 1:10 sfInit(parallel=TRUE, cpus=2, slaveOutfile='/tmp/snowfall.log') sfExport('foo') res = sfClusterApplyLB(x, fun='foo') sfStop() cat(unlist(res)) }
这个函数说明了snowfall包的基本使用:
- 先通过第7行代码初始化计算集群,参数分明指明了运行并行模式、使用本地的两个cpu作运算、定位各slave的日志输出;
- 第8行代码把foo这个函数发布到各slave;
- 第9行代码把x传给foo函数计算,对x这个向量中不同的元素作并行,这里sfClusterApplyLB的作用类似于R里的apply函数;
- 第10行停止计算集群;
- 第2行的打印信息会输出到slaveOutfile指定的日志文件中。
测试函数2:
mysort <- function(x){ replicate(5, sort(x)) return(sort(x)[1:10]) } test.apply <- function(cpus=4){ M = matrix(rnorm(10000000), 100, 100000) print('sequence run:') print(system.time(x<-apply(M, 2, mysort))) t = Sys.time() # sfInit(parallel=TRUE, socketHosts=c(rep('balin',2), rep('dwalin',2))) sfInit(parallel=TRUE, cpus=cpus) print(sprintf('%s cpus to be used', sfCpus())) print('parallel time cost:') print(system.time(x<-sfApply(M, 2, mysort))) sfStop() print(paste('total parallel time cost:', Sys.time()-t)) }
这个函数展示了一个实际的有一定负载量的计算过程。
- 第6行生成一个100*100000的测试矩阵M;
- 第8行对M的每一列应用mysort这个函数,mysort函数在上面有定义,除了排序之外,还做了一些额外的无用功,增加计算负载,这是单线程计算范式,用于作对比;
- 第14行进行实际计算,作用跟第8行一样,不同之处在于这里是利用并行计算范式进行计算,使用的slave数量由cpus参数指定;
- 可以尝试拿第10行置换第11行,第11行是单机多核并行,第10行是多机多核并行,各机器使用cpu的数量由socketHosts里该机器名出现次数而定(balin和dwalin都是机器名);
- 在使用同样多的slave的情况下,多机多核通常会比单机多核要慢一点,因为涉及到网络IO。
测试函数2的性能测试如下:
- 非并行情况下,总耗时31秒多;
- 2 slave的情况下,总耗时22秒多;
- 4 slave的情况下,总耗时接近15秒。
- 补:在sfInit函数初始化时,设置type=’MPI’,使用MPI方式并行,4 slave情况下,比SOCKET方式稍慢,耗时17秒多。
即slave增加4倍时,计算时间减少一半。