一、在虚拟机中安装R语言
1.下载R语言压缩包R-3.2.2.tar.gz,放在目标目录下
★在此特别提醒,尽量安装3.2.?版本的R,更高版本的R容易出现依赖包安装不全的问题。
# mv R-3.2.2.tar.gz /home/hadoop
下载R语言压缩包建议采用以下两种方式:
一是在本机上使用浏览器下载好R语言的压缩包,再通过WinSCPPortable工具再发送到虚拟机。
二是直接在虚拟机中下载,使用命令#wget https://cran.r-project.org/src/base/R-3/R-3.2.2.tar.gz下载R语言压缩包。
2.将压缩包解压缩
# tar -zxf R-3.2.2.tar.gz
3.安装R语言依赖包
R语言运行依赖相关程序包,可以通过root身份进行安装。
安装R语言依赖包需要联网进行,所以在进行此步之前要先实现虚拟机的网络连接。
#yum install gcc -y
#yum install gcc-c++ -y
#yum install gcc-gfortran -y
#yum install readline-devel -y
#yum install libXt-devel -y
#yum install libpng-devel -y
4.编译安装
使用makr方法对R语言进行编译安装。
#cd /home/hadoop/R-3.2.2
#./configure --enable-R-shlib --with-x --with-libpng --with-jpeglib
#make && make install
5.检测R是否安装成功
使用命令行R进入R的编译模式并检测R是否安装成功。
出现如上界面说明R语言安装成功。
二、安装SparkR运行环境
1.安装依赖包
以root身份安装SparkR依赖包。
#yum install libcurl-devel -y
#yum install openssl-devel -y
#yum install libxml2-devel -y
2.在R Shell中安装相关依赖包
在安装依赖包时,会提示选择最佳的镜像站点,可以根据需要选择。
#R
>install.packages("rJava")
>install.packages("devtools")
>install.packages("git2r)
>install.packages("xml2")
>install.packages("rversions")
由于后续实例中需要画图,需要加入png、jpeg等支持,所以还需安装如下依赖包。
>install.packages("png")
>install.packages("jpeg")
三、安装SparkR
在某一版本后的Spark中,已经内置了SparkR,直接调用就可以了。
在此,安装的是Spark1.6.3。
四、启动并验证安装
首先启动R shell,然后加载SparkR。
#R
>library(SparkR)
报错及解决方法:
1. 编译R语言时
解决方法:yum install readline-devel
2. 下载依赖包时提示
解决方法:出现如上提示通常是网络问题
使用NAT方式进行网络连接,共享主机的网络。特别需要提醒的是,虚拟机中节点的网关和DNS问题。
在此处GATEWAY的最后一位不是1而是2。同时要确保虚拟机的DNS和主机的DNS一样。
3.编译R语言时报错
这个问题简单来说,就是从16年开始,R的新版本去除了一些原来包含在安装包里的包,并默认这些包已经安装在你的系统里,这时候,如果你用的是自己本地较新的linux/mac/windows版本,默认已经装好这些包,即使没有也能够很快安装或者更新这些包。但是,如果你是在服务器集群上,没有管理员权限,需要将这些包先安装在自己的目录下,然后才能调用,而关键的问题就是调用时的环境变量如何设置。
解决方法:安装较低版本的R语言,建议安装R-3.2.?版本的R,不容易出错。也可安装R-3.3.?版本的R,但是依赖包的问题解决较为麻烦,且后续容易出现各种问题,不建议安装。