Spark 实现wordcount

　　配置完spark之后，使用spark实现wordcount，这一部分完全参考《深入理解Spark：核心思想与源码分析》

　　依然使用hadoop wordcountTest的那几个txt文件

　　进入spark的bin目录，打开spark-shell

　　spark-shell

　　在打开的scala命令行中依次输入以下几个语句：

val lines = sc.textFile("/home/hadoop/scala-2.11.5/wordcountText/*.txt", 2)
val words = lines.flatMap(line => line.split(" "))
val ones = words.map(w => (w,1))
val counts = ones.reduceByKey(_+_)
counts.foreach(println)

　　部分wordcount输出结果，可以发现，spark默认的单词计数是乱序的：

posted @ 2017-07-03 21:57 银河末班车阅读(426) 评论(0) 编辑收藏举报

刷新页面返回顶部

银河末班车

Spark 实现wordcount

公告