spark搭建

复制代码
1、上传解压,配置环境变量 配置bin目录
2、修改配置文件 conf
    mv spark-env.sh.template spark-env.sh
    增加配置

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2g
export JAVA_HOME=/usr/local/soft/jdk1.8.0_171

    master相当于RM  worker相当于NM

    增加从节点配置
    mv slaves.template slaves
    
    node1
    node2

    增加从节点

3、复制到其它节点
scp -r spark-2.4.5 node1:`pwd`
scp -r spark-2.4.5 node2:`pwd`


4、在主节点执行启动命令
    启动集群,在master中执行
    ./sbin/start-all.sh    

    http://master:8080/  访问spark ui



1.    standalone client模式   日志在本地输出,一班用于上线前测试(bin/下执行)

需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /usr/local/soft/spark-2.4.5/examples/jars

spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100


2.    standalone cluster模式   上线使用,不会再本地打印日志
spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --driver-memory 512m --deploy-mode cluster --supervise --executor-memory 512M --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100



spark-shell   spark 提供的一个交互式的命令行,可以直接写代码


spark-shell --master spark://master:7077


运行自己写的代码
1、注释掉setMaster
2、将项目打包
3、上传到服务器
4、提交任务
spark-submit --class com.shujia.spark.core.Demo18PI --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-1.0.jar





整合yarn


在公司一般不适用standalone模式,因为公司一般已经有yarn  不需要搞两个资源管理框架

停止spark集群
在spark sbin目录下执行  ./stop-all.sh

spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件

1、增加hadoop 配置文件地址
    
    vim spark-env.sh
    增加
    export HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop


2、往yarn提交任务需要增加两个配置  yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)

先关闭yarn
stop-yarn.sh

<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>



4、同步到其他节点,重启yarn
scp -r yarn-site.xml node1:`pwd`
scp -r yarn-site.xml node2:`pwd`


启动yarn
start-yarn.sh


cd /usr/local/soft/spark-2.4.5/examples/jars

3.spark    on yarn client模式   日志在本地输出,一班用于上线前测试
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100


4.spark on yarn cluster模式   上线使用,不会再本地打印日志   减少io
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100

获取yarn程序执行日志  执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003



运行自己写的代码
1、注释掉setMaster, 修改输入输出路径
2、将项目打包
3、上擦到服务器
4、提交任务
spark-submit --class com.shujia.spark.core.Demo20Submit --master yarn-cluster --executor-memory 512m --total-executor-cores 1 spark-1.0.jar



杀死yarn 任务
yarn application -kill application_1626660789491_0012


hdfs webui
http://node1:50070

yarn ui
http://node1:8088
复制代码

 

posted @   坤坤无敌  阅读(100)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署
· 葡萄城 AI 搜索升级:DeepSeek 加持,客户体验更智能
点击右上角即可分享
微信分享提示