1.确保安装JDK1.8+
2.安装scala2.12.4
3.安装spark2.2.1
4.安装hadoop2.9.0
5.安装R3.4.3
6.R中安装rjava和devtools两个包
7.library(SparkR)(先把下载的spark中的R包放到R的安装目录库里)
8.下载对应的winutils.exe放到hadoop的bin下面
9.在path里设置好所有bin,添加JAVA_HOME,SPARK_HOME,HADOOP_HOME为各程序的安装目录
10.winutils.exe chmod 777 c:\tmp\hive 修改tmp的读写权限
11.通过http://localhost:4041/访问sparkui(端口可能会变化)
在Rstudio中建立与spark的连接:
library(SparkR)
library(rJava)
library(devtools)
sparkR.session(master = "local")
使用df <- as.DataFrame(faithful)来检测是否成功创建sparkdataframe