work hard work smart

专注于Java后端开发。 不断总结,举一反三。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

Spark环境搭建

Posted on 2021-02-04 15:38  work hard work smart  阅读(134)  评论(0编辑  收藏  举报

一、Spark下载

进入官网下载需要的版本: http://archive.apache.org/dist/spark/ 

官网下载地址太慢,建议在Apache国内镜像下载

地址1:http://mirror.bit.edu.cn/apache/

地址2:https://mirrors.tuna.tsinghua.edu.cn/apache

地址2貌似速度快一些

hadoop、hbase等Apache旗下的大多都可以

我这里下载的版本时: spark-2.4.7-bin-hadoop2.6.tgz

1、下载后解压

 cd  /home/tools/spark2

tar -zxvf spark-2.4.7-bin-hadoop2.6.tgz

 

2、启动spark 

/home/tools/spark2/spark-2.4.7-bin-hadoop2.6/bin

./spark-shell

启动成功后如下图所示:

 

 

二、使用Spark统计文本的行数

1、数据准备 

 创建文件 /home/data/helloSpark, 内容如下图所示

 

 

2、统计文本的行数

var lines=sc.textFile("/home/data/helloSpark") 加载文件的内容。

lines.count() 进行统计行数

 

3、统计单词个数

scala> var file=sc.textFile("/home/data/helloSpark")

scala> var wordCounts = file.flatMap(line => line.split(" ")).map((word => (word,1))).reduceByKey(_+_)

scala> wordCounts.collect
res3: Array[(String, Int)] = Array((spark!,1), (man!,1), (hello,3), (world!,1))

 

另外一个统计Words的代码,分别使用Java和Scale代码进行统计

https://blog.csdn.net/qq_31776219/article/details/113862700