Spark 实现wordcount

  配置完spark之后,使用spark实现wordcount,这一部分完全参考《深入理解Spark:核心思想与源码分析》

  依然使用hadoop wordcountTest的那几个txt文件

  

  进入spark的bin目录,打开spark-shell

  spark-shell

   在打开的scala命令行中依次输入以下几个语句:

val lines = sc.textFile("/home/hadoop/scala-2.11.5/wordcountText/*.txt", 2)
val words = lines.flatMap(line => line.split(" "))
val ones = words.map(w => (w,1))
val counts = ones.reduceByKey(_+_)
counts.foreach(println)

   部分wordcount输出结果,可以发现,spark默认的单词计数是乱序的:

  

posted @ 2017-07-03 21:57  银河末班车  阅读(424)  评论(0编辑  收藏  举报