编译Spark-1.6.0源码
源码下载地址:
https://archive.apache.org/dist/spark/spark-1.6.0/
下载源码包:spark-1.6.0.tgz
更具官网 http://spark.apache.org/docs/1.6.0/building-spark.html
需安装 jdk1.7以上 maven3.3.3 以后上
本人安装
JDK: 1.8.0_131
maven 版本: 3.5.0 http://maven.apache.org/download.cgi
官方提供的编译命令如下:
./make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.4 -Phive -Phive-thriftserver -Pyarn
参数说明:
• --name:指定编译完成后Spark安装包的名字
• --tgz:以tgz的方式进行压缩
• -Psparkr:编译出来的Spark支持R语言
• -Phadoop-2.4:以hadoop-2.4的profile进行编译,具体的profile可以看出源码根目录中的pom.xml中查看
• -Phive和-Phive-thriftserver:编译出来的Spark支持对Hive的操作
• -Pmesos:编译出来的Spark支持运行在Mesos上
• -Pyarn:编译出来的Spark支持运行在YARN上
更具实际使用条件来编译Spark,我们使用的Hadoop版本是2.6.0-cdh5.7.0,Spark运行在YARN上、支持对Hive的操作,那么我们的Spark源码编译脚本就是:
./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0
编译成功后看到: spark-1.6.0-bin-2.6.0-cdh5.7.0.tgz 接下来这包进行Spark的安装即可。
注意:由于网络问题 会出现某个依赖包的时间太久, 编译过程中多试几次即可