原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3820979.html
一、系统环境配置
参照http://www.cnblogs.com/tovin/p/3818908.html文章的第一、二部分配置好基本环境
在集群所有节点下载并解压spark的安装包:
cd /usr/local/spark/conf/
mv spark-env.sh.template spark-env.sh
vim spark-env.sh 添加如下内容:
SPARK_WORKER_CORES表示每个Worker进程使用core数目
SPARK_WORKER_MEMORY表示每个Worker进程使用内存
SPARK_WORKER_INSTANCES表示每台机器Worker数目
node02节点:(出现Worker进程)
node03节点:(出现Worker进程)
4、集群web ui
访问http://node01:8080查看集群管理页面
5、执行SparkPi测试程序
/usr/local/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://node01:7077 /usr/local/spark/lib/spark-examples-1.0.0-hadoop2.2.0.jar
注意:红色node01必须与配置文件中配置的SPARK_MASTER_IP保持一样,否则会出现问题
三、Spark部署(spark on yarn模式)
此模式部署只需要把安装包解压放到yarn集群所有机器即可
Client Driver部署:
1、下载spark、hadoop安装包
参照系统环境配置部分进行设置
2、修改配置文件
hadoop配置文件使用与集群一致的文件
su hdp
cd /usr/local/spark
vim conf/spark-env.sh添加内容
3、spark测试程序
/usr/local/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster /usr/local/spark/lib/spark-examples-1.0.0-hadoop2.2.0.jar
原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3820979.html