一、下载:

官网下载spark-2.0.1-bin-hadoop2.7(http://spark.apache.org/downloads.html)的安装包;

 

二、安装:

spark解压缩,同时增加环境变量:%SPARK_HOME%:spark存放位置;PATH里增加:%SPARK_HOME%/bin;

cmd命令行中输入pyspark,出现下图即表示成功:

注意:其存放路径名里不能有空格不能有空格不能有空格!!!否则此处会报错:Failed to find Spark jars directory.

(血与泪的教训啊,就因为我把他放在了Program Files下面,为了这个空格简直泪流成河可以哭倒长城/(ㄒoㄒ)/~~)

 

要使用python调用spark,需要把spark-2.0.1-bin-hadoop2.7\python\pyspark文件夹copy到python安装文件下的..\Python27\Lib\site-packages文件夹中;

 

三、附加安装:

Hadoop,如果只在本地测试,hadoop可以不装;

psutil,直接用pip install安装即可,具体作用还不知道,就是测试的时候给了一个warning提示要装~~~以备后患吧~~~

winutil.exe,放在hadoop的bin文件加下,否则训练的模型无法保存到本地(下载:http://download.csdn.net/download/javamin/8175805)