python spark

http://blog.jobbole.com/86232/

1. 安装lib

材料:

spark : http://spark.apache.org/downloads.html

hadoop : http://hadoop.apache.org/releases.html

jdk: http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html

hadoop-commin : https://github.com/srccodes/hadoop-common-2.2.0-bin/archive/master.zip (for windows7)

需要下载对应的版本

步骤：

a. 安装jdk，默认步骤即可

b. 解压spark （D:\spark-2.0.0-bin-hadoop2.7）

c. 解压hadoop (D:\hadoop2.7)

d. 解压hadoop-common-bin（for w7）

e. copy hadoop-common-bin/bin to hadoop/bin （for w7）

2. 环境变量设置

SPARK_HOME = D:\spark-2.0.0-bin-hadoop2.7

HADOOP_HOME = D:\hadoop2.7

PATH append = D:\spark-2.0.0-bin-hadoop2.7\bin;D:\hadoop2.7\bin

3. Python lib设置

a. copy D:\spark-2.0.0-bin-hadoop2.7\python\pyspark to [Your-Python-Home]\Lib\site-packages

b. pip install py4j

c. pip install psutil

(for windows: http://www.lfd.uci.edu/~gohlke/pythonlibs/#psutil)

4. Testing

cmd -> pyspark 不报错并且有相应的cmd

posted on 2017-04-27 15:15 大大的橙子阅读(267) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 字节豆包，来园广告
· 为什么推荐在 .NET 中使用 YAML 配置文件
· 在 .NET Core 中使用 Channel 实现生产者消费者模式
· 干掉EasyExcel！FastExcel初体验
· .NET 阻止系统睡眠/息屏

大大的橙子