02.spark-spark分布式安装
1.规划 三台服务器
s101 //master(进程)
s102 ~ s104 //worker(进程)
2.在每个主机上分别安装spark
tar -zxvf /home/centos/download/spark-2.1.1-bin-hadoop2.7.tgz -C /soft/
ln -s spark-2.1.1-bin-hadoop2.7/ spark
3.配置spark(每个节点进行相同操作)
3.1)在spark的conf目录下创建hadoop的core-site.xml和hdfs-site.xml软连接
$>xcall.sh ln -s /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/core-site.xml
$>xcall.sh ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/hdfs-site.xml
3.2)配置JAVA_HOME环境变量
$>cd /soft/spark/conf
$>cp spark-env.sh.template spark-env.sh
$>nano spark-env.sh
...
export JAVA_HOME=/soft/jdk
...
2)添加JAVA_HOME环境变量
[centos@s101 /soft/spark/sbin]$nano spark-config.sh
#java JDK
export JAVA_HOME=/soft/jdk
3.3)修改slaves文件
$>cd /soft/spark/conf
$>cp slaves.template slaves
$>nano slaves
s102
s103
s104
3.4)分发配置文件
$>xsync.sh spark-env.sh
$>xsync.sh slaves
4.启动spark集群
4.1)启动hadoop集群
xzk.sh start //启动zk
start-dfs.sh //启动hdfs
4.2)启动spark
$>cd /soft/spark/sbin
$>./start-all.sh
5.webui
http://s101:8080
5上传本地文件到hdfs
查看当前目录信息 hdfs dfs -ls / 上传文件 hdfs dfs -put /本地路径 /hdfs路径
6.启动spark shell,连接到spark集群
$>spark-shell --master spark://s101:7077
$>sc.textFile("/user/centos/data/1.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()
http://s101:8080 查看执行情况
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 一文读懂知识蒸馏
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
2020-08-11 014.PGSQL-序列sequence
2020-08-11 013.PGSQL-查看sql正在运行的进程、查看表是否被锁、解锁表