Spark在Local环境下的使用

① 将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux (cd /opt/module路径下)并解压缩

② 修改spark-3.0.0-bin-hadoop3.2名称为spark-local

mv spark-3.0.0-bin-hadoop3.2/ spark-local

③ 进入spark-local

cd spark-local/

④ 启动local环境

bin/spark-shell

⑤ Web页面访问：master:4040

⑥ 命令行的使用

sc.textFile("data/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

⑦ 提交应用（cd /opt/module/spark-local路径下）

1) --class 表示要执行程序的主类，可以更换为自己写的应用程序

2) --master local[2] 部署模式，默认为本地模式，数字表示分配的虚拟 CPU 核数量

3) spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包，可以设定为自己打的 jar 包

4) 数字 10 表示程序的入口参数，用于设定当前应用的任务数量

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master local[2] \

./examples/jars/spark-examples_2.12-3.0.0.jar \

10

⑧ 退出本地模式

:quit

posted @ 2022-02-23 09:34 CherriesOvO 阅读(156) 评论(0) 编辑收藏举报

刷新页面返回顶部

薛定谔的猫