Spark环境搭建及Spark shell

StandAlone模式环境搭建

环境准备：三台Linux，一个安装Master，其他两台机器安装Worker

下载spark安装包，下载地址：https://spark.apache.org/downloads.html
上传spark安装包到Linux服务器上
解压spark安装包

tar -zxvf spark-3.2.3-bin-hadoop3.2.tgz -C /opt/apps

进入到spark按照包目录并将conf目录下的spark-env.sh.template重命名为spark-env.sh，再修改

export JAVA_HOME=/usr/local/jdk1.8.0_251/
export SPARK_MASTER_HOST=linux01

将conf目录下的workers.template重命名为workers并修改，指定Worker的所在节点

linux02
linux03

将配置好的spark拷贝到其他节点

for i in {2..3}; do scp -r spark-3.2.3-bin-hadoop3.2 linux0$i:$PWD; done

启动Spark集群

sbin/start-all.sh

执行jps命令查看Java进程

jps

在ndoe-1上可以看见Master进程，在其他的节点上可以看见到Worker进程

访问Master的web管理界面，端口8080

一些重要参数

export SPARK_WORKER_CORES=4    #指定worker可用的逻辑核数
export SPARK_WORKER_MEMORY=2g  #指定worker可用的内存大小

standalone模式高可用部署

spark的standalone模式可以启动两个以上的Master，但是需要依赖zookeeper进行协调，所有的节点启动后，都向zk注册

修改配置文件spark-env.sh

 # 注释掉master的地址，所有节点都先连接zookeeper
 # export SPARK_MASTER_HOST=linux01
 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=linux01:2181,linux02:2181,linux03:2181 -Dspark.deploy.zookeeper.dir=/spark"

启动Spark Shell编程

spark shell是spark中的交互式命令行客户端，可以在spark shell中使用scala编写spark程序，启动后默认已经创建了SparkContext，别名为sc

/opt/apps/spark-3.2.3-bin-hadoop3.2/bin/spark-shell \
--master spark://linux01:7077 --executor-memory 1g \
--total-executor-cores 3

如果Master配置了HA高可用，需要指定两个Master（因为这两个Master任意一个都可能是Active状态）

/bigdata/spark-3.2.3-bin-hadoop3.2/bin/spark-shell \
--master spark://linux01:7077,linux02:7077 \
--executor-memory 1g \
--total-executor-cores 3

参数说明：
--master 指定masterd地址和端口，协议为spark://，端口是RPC的通信端口
--executor-memory 指定每一个executor的使用的内存大小
--total-executor-cores指定整个application总共使用了cores

在shell中编写第一个spark程序

sc.textFile("hdfs://linux01:9000/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://linux01:9000/out")

posted @ 2023-06-27 21:37 _泡泡阅读(151) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Spark编程基础

· Spark架构体系

· Spark——Standalone 环境安装及简单使用

· spark环境搭建

· Spark集群环境搭建

阅读排行：
· 一个费力不讨好的项目，让我损失了近一半的绩效！
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单！
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库

公告

昵称： _泡泡
园龄： 5年7个月
粉丝： 7
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六

Spark环境搭建及Spark shell

StandAlone模式环境搭建

启动Spark集群

一些重要参数

standalone模式高可用部署

启动Spark Shell编程

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论