一、下载:
官网下载spark-2.0.1-bin-hadoop2.7(http://spark.apache.org/downloads.html)的安装包;
二、安装:
spark解压缩,同时增加环境变量:%SPARK_HOME%:spark存放位置;PATH里增加:%SPARK_HOME%/bin;
cmd命令行中输入pyspark,出现下图即表示成功:
注意:其存放路径名里不能有空格不能有空格不能有空格!!!否则此处会报错:Failed to find Spark jars directory.
(血与泪的教训啊,就因为我把他放在了Program Files下面,为了这个空格简直泪流成河可以哭倒长城/(ㄒoㄒ)/~~)
要使用python调用spark,需要把spark-2.0.1-bin-hadoop2.7\python\pyspark文件夹copy到python安装文件下的..\Python27\Lib\site-packages文件夹中;
三、附加安装:
Hadoop,如果只在本地测试,hadoop可以不装;
psutil,直接用pip install安装即可,具体作用还不知道,就是测试的时候给了一个warning提示要装~~~以备后患吧~~~
winutil.exe,放在hadoop的bin文件加下,否则训练的模型无法保存到本地(下载:http://download.csdn.net/download/javamin/8175805)