Spark-WordCount

words.txt 数据

this is one line
this is two line
def main(args: Array[String]): Unit = {
//创建SparkConf()并且设置App的名称
val conf = new SparkConf()
.setAppName("wordCount")
.setMaster("local") // 如果需要在集群运行需要注释掉setMaster,不然在集群里面就是单个节点运行.
//创建SparkContext,该对象是提交spark app的入口
val sc = new SparkContext(conf)
//使用sc创建rdd,并且执行相应的transformation和action
// sc.textFile("hdfs://master:9000/words.txt") //master主机上的 hdfs的 /words.txt文件
sc.textFile("D:\\words.txt") // 本地的 D:\words.txt
.flatMap(_.split(" ")) // 按照空格拆分每一行数据
.map((_, 1)) // 将拆分的数据转换成 (word,1)的形式
.reduceByKey(_ + _, 1) // 将相同的单词的value相加,并且设置为1个分区
.sortBy(_._2, false) // 根据value进行 降序排序
.foreach(println) // 打印输出
// 停止sc,结束该任务
sc.stop()
}
(this,2)
(is,2)
(line,2)
(two,1)
(one,1)
posted @   会走的树  阅读(221)  评论(0编辑  收藏  举报
编辑推荐:
· ASP.NET Core 模型验证消息的本地化新姿势
· 对象命名为何需要避免'-er'和'-or'后缀
· SQL Server如何跟踪自动统计信息更新?
· AI与.NET技术实操系列:使用Catalyst进行自然语言处理
· 分享一个我遇到过的“量子力学”级别的BUG。
阅读排行:
· dotnet 源代码生成器分析器入门
· Draw.io:你可能不知道的「白嫖级」图表绘制神器
· ASP.NET Core 模型验证消息的本地化新姿势
· 从零开始:基于 PyTorch 的图像分类模型
· 官方的 MCP C# SDK:csharp-sdk
点击右上角即可分享
微信分享提示