Spark Programming--WordCount
首先在$SPARK_HOME主目录下建立一个test文件夹,里面放一些文件(注意文件全部内容都可被hadoop用户访问,否则运行会出现permission denied的错误)
打开pyspark: ./bin/pyspark
读入文件
整行切割(flatMap, s.split())
映射数量(map, 用于计数,初始化为1)
查看Pipeline转换
计数(reduceByKey)
存储到本地文件
简单wordCount程序。