spark搭建
1、上传解压,配置环境变量 配置bin目录 2、修改配置文件 conf mv spark-env.sh.template spark-env.sh 增加配置 export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CORES=2 export SPARK_WORKER_INSTANCES=1 export SPARK_WORKER_MEMORY=2g export JAVA_HOME=/usr/local/soft/jdk1.8.0_171 master相当于RM worker相当于NM 增加从节点配置 mv slaves.template slaves node1 node2 增加从节点 3、复制到其它节点 scp -r spark-2.4.5 node1:`pwd` scp -r spark-2.4.5 node2:`pwd` 4、在主节点执行启动命令 启动集群,在master中执行 ./sbin/start-all.sh http://master:8080/ 访问spark ui 1. standalone client模式 日志在本地输出,一班用于上线前测试(bin/下执行) 需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行 cd /usr/local/soft/spark-2.4.5/examples/jars spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100 2. standalone cluster模式 上线使用,不会再本地打印日志 spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --driver-memory 512m --deploy-mode cluster --supervise --executor-memory 512M --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100 spark-shell spark 提供的一个交互式的命令行,可以直接写代码 spark-shell --master spark://master:7077 运行自己写的代码 1、注释掉setMaster 2、将项目打包 3、上传到服务器 4、提交任务 spark-submit --class com.shujia.spark.core.Demo18PI --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-1.0.jar 整合yarn 在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架 停止spark集群 在spark sbin目录下执行 ./stop-all.sh spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件 1、增加hadoop 配置文件地址 vim spark-env.sh 增加 export HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop 2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml) 先关闭yarn stop-yarn.sh <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> 4、同步到其他节点,重启yarn scp -r yarn-site.xml node1:`pwd` scp -r yarn-site.xml node2:`pwd` 启动yarn start-yarn.sh cd /usr/local/soft/spark-2.4.5/examples/jars 3.spark on yarn client模式 日志在本地输出,一班用于上线前测试 spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100 4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100 获取yarn程序执行日志 执行成功之后才能获取到 yarn logs -applicationId application_1560967444524_0003 运行自己写的代码 1、注释掉setMaster, 修改输入输出路径 2、将项目打包 3、上擦到服务器 4、提交任务 spark-submit --class com.shujia.spark.core.Demo20Submit --master yarn-cluster --executor-memory 512m --total-executor-cores 1 spark-1.0.jar 杀死yarn 任务 yarn application -kill application_1626660789491_0012 hdfs webui http://node1:50070 yarn ui http://node1:8088
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署
· 葡萄城 AI 搜索升级:DeepSeek 加持,客户体验更智能