spark单机部署

官网

https://spark.apache.org/

# spark版本文档列表
https://spark.apache.org/docs/

# 查看指定版本文档
https://spark.apache.org/docs/2.4.7/

# 下载安装包
https://spark.apache.org/downloads.html

配置环境变量

export SPARK_HOME=/opt/pmo/data/spark/spark-1.6.3-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
source /etc/profile

单机部署测试

解压后执行 bin/spark-shell 进入scala命令行
可以执行命令
scala>sc.textFile("/data/testdata.txt").flatMap(_.split(" ")).map(Tuple2(_,1)).reduceByKey(_+_).foreach(println)

文件/data/testdata.txt内容
hello world
hello msb
hello spark
good spark

输出
(spark,2)
(hello,3)
(msb,1)
(good,1)
(world,1)

测试hadoop的文件统计

bin/spark-shell
scala > sc.textFile("/derby.log").filter(line=>line.contains("os")).count()
scala > sc.textFile("/derby.log").count()

使用scala语言统计的代码讲解

在输出日志中会出现地址可以访问代码执行流程：http://DESKTOP-4C0OVBC:4040
只有遇到foreach方法时，流程才会执行，因为foreach内部实现调用了方法runJob

posted @ 2023-10-21 11:47 rbcd 阅读(52) 评论(0) 收藏举报

刷新页面返回顶部