spark的wordcount
在开发环境下实现第一个程序wordcount
1、下载和配置scala,注意不要下载2.13,在spark-core明确支持scala2.13前,使用2.12或者2.11比较好。
https://www.scala-lang.org/download/
2、windows环境下的scala配置,可选
3、开发工具IDEA环境设置,全局环境添加scala的sdk,注意scala的源码要手动下载和添加
4、在IDEA中新建MAVEN项目,添加scala框架支持
5、在MAVEN工程添加spark-core依赖,注意根据自己需要选择对应的版本,版本不对很可能会出现运行期异常。
<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.4</version> </dependency> </dependencies>
6、wordcount代码
在项目根目录(与src平级)中新建一个input目录,里面放入需要统计词频的文本文件
package com.home.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]): Unit = { //获取环境 val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkWordCount") //获取上下文 val sc: SparkContext = new SparkContext(conf) //读取每一行 val lines: RDD[String] = sc.textFile("input") //扁平化,将每行数据拆分成单个词(自定义业务逻辑) val words: RDD[String] = lines.flatMap(_.split(" ")) //结构转换,对每个词获得初始词频 val wordToOne: RDD[(String, Int)] = words.map((_,1)) //词频计数 val wordToSum: RDD[(String, Int)] = wordToOne.reduceByKey(_+_) //按词频数量降序排序 val wordToSorted: RDD[(String, Int)] = wordToSum.sortBy(_._2,false) //数据输出 val result: Array[(String, Int)] = wordToSorted.collect() //打印 result.foreach(println) //关闭上下文 sc.stop() } }