祝各位道友念头通达
GitHub Gitee 语雀 打赏

spark集群配置

1.jdk环境

2.scala安装和环境配置

 

3.spark

配置spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_141
export SCALA_HOME=/usr/scala
export SPARK_MASTER_IP=han01
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1 #每个Worker进程所需要的CPU核的数目;
export SPARK_WORKER_INSTANCES=1 #每个Worker节点上运行Worker进程的数目
export SPARK_WORKER_CORES=1 #每个WORK再节点运行时占用的cpu个数
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.3/etc/hadoop

 

4.配置slaves(worker坐在的机器)

 

 

5.避免与hadoop启动命令冲突

修改.sh

 

6.jdk

将配置 拷贝到其他两个机器

刷新环境变量: source /etc/profile

 

7.启动spark

 8.进入shell界面

  9.(出现问题)拒绝连接:

   10.在集群中启动命令:

spark-shell --master spark://han01:7077 --total-executor-cores 1 --executor-memory 512m

  11.hadoop中做单词统计

  12.hadoop中RDD的理解和使用

 

   13.hadoop中RDD操作的函数叫做算子

 

 

  

 

posted @ 2018-11-27 16:04  韩若明瞳  阅读(250)  评论(0编辑  收藏  举报