Spark Programming--WordCount

首先在$SPARK_HOME主目录下建立一个test文件夹，里面放一些文件（注意文件全部内容都可被hadoop用户访问，否则运行会出现permission denied的错误）

打开pyspark: ./bin/pyspark

读入文件

整行切割（flatMap, s.split()）

映射数量（map, 用于计数，初始化为1）

查看Pipeline转换

计数(reduceByKey)

存储到本地文件

简单wordCount程序。

posted @ 2015-12-30 15:14 loadofleaf Views(126) Comments(0) Edit 收藏举报

刷新页面返回顶部