Spark学习进度-Spark环境搭建&Spark shell
1|0Spark环境搭建
1|1下载包
所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2.2.0/
1|2Spark 集群高可用搭建
对于 Spark Standalone 集群来说, 当 Worker 调度出现问题的时候, 会自动的弹性容错, 将出错的 Task 调度到其它 Worker 执行
但是对于 Master 来说, 是会出现单点失败的, 为了避免可能出现的单点失败问题, Spark 提供了两种方式满足高可用
-
使用 Zookeeper 实现 Masters 的主备切换
-
使用文件系统做主备切换
Step 1 停止 Spark 集群
Step 2 修改配置文件, 增加 Spark 运行时参数, 从而指定 Zookeeper 的位置
-
进入
spark-env.sh
所在目录, 打开 vi 编辑 -
编辑
spark-env.sh
, 添加 Spark 启动参数, 并去掉 SPARK_MASTER_HOST 地址
Step 3 分发配置文件到整个集群
Step 4 启动
-
在
node01
上启动整个集群 -
在
node02
上单独再启动一个 Master
Step 5 查看 node01 master
和 node02 master
的 WebUI
-
你会发现一个是
ALIVE(主)
, 另外一个是STANDBY(备)
2|0 Spark shell
2|1简单介绍
Spark shell 是 Spark 提供的一个基于 Scala 语言的交互式解释器, 类似于 Scala 提供的交互式解释器, Spark shell 也可以直接在 Shell 中编写代码执行
这种方式也比较重要, 因为一般的数据分析任务可能需要探索着进行, 不是一蹴而就的, 使用 Spark shell 先进行探索, 当代码稳定以后, 使用独立应用的方式来提交任务, 这样是一个比较常见的流程
2|2Spark shell 的方式编写 WordCount
Spark shell 简介
|
Master地址的设置
Master 的地址可以有如下几种设置方式
|
Step 1 准备文件
在 hadoop01 中创建文件 /export/data/wordcount.txt,文件内容如下
Step 2 启动 Spark shell
Step 3 执行如下代码
2|3 运行流程
__EOF__
作 者:清风紫雪
出 处:https://www.cnblogs.com/xiaofengzai/p/14233099.html
关于博主:编程路上的小学生,热爱技术,喜欢专研。评论和私信会在第一时间回复。或者直接私信我。
版权声明:署名 - 非商业性使用 - 禁止演绎,协议普通文本 | 协议法律文本。
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 周边上新:园子的第一款马克杯温暖上架
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?
· 使用C#创建一个MCP客户端