1.确保安装JDK1.8+

2.安装scala2.12.4

3.安装spark2.2.1

4.安装hadoop2.9.0

5.安装R3.4.3

6.R中安装rjava和devtools两个包

7.library(SparkR)(先把下载的spark中的R包放到R的安装目录库里)

8.下载对应的winutils.exe放到hadoop的bin下面

9.在path里设置好所有bin,添加JAVA_HOME,SPARK_HOME,HADOOP_HOME为各程序的安装目录

10.winutils.exe chmod 777 c:\tmp\hive 修改tmp的读写权限

11.通过http://localhost:4041/访问sparkui(端口可能会变化)

 

在Rstudio中建立与spark的连接:

library(SparkR)

library(rJava)

library(devtools)

sparkR.session(master = "local")

使用df <- as.DataFrame(faithful)来检测是否成功创建sparkdataframe