Spark在Local环境下的使用

①    将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux (cd /opt/module路径下)并解压缩

 

②    修改spark-3.0.0-bin-hadoop3.2名称为spark-local

mv spark-3.0.0-bin-hadoop3.2/ spark-local

③    进入spark-local

cd spark-local/

 

④    启动local环境

bin/spark-shell

 

⑤    Web页面访问:master:4040

 

⑥    命令行的使用

sc.textFile("data/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

 

⑦    提交应用(cd /opt/module/spark-local路径下)

1) --class 表示要执行程序的主类,可以更换为自己写的应用程序

2) --master local[2] 部署模式,默认为本地模式,数字表示分配的虚拟 CPU 核数量

3) spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包,可以设定为自己打的 jar 包

4) 数字 10 表示程序的入口参数,用于设定当前应用的任务数量

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master local[2] \

./examples/jars/spark-examples_2.12-3.0.0.jar \

10

 

⑧    退出本地模式

:quit
posted @ 2022-02-23 09:34  CherriesOvO  阅读(156)  评论(0编辑  收藏  举报