wordcount数据流过程解析 - hard-working

公告

(1)执行hadoopFile()操作，其中有生成HadoopRDD的new 方法。
然后执行map方法。pair => pair._2.toString，只对Value值进行操作。
在textFile操作中首先从文件系统中读取分布式数据，并且以数据分片的方式存在于集群之中，生成HadoopRDD，
的类型分别为，对于每一个计算节点，计算对应的分片数据；在textFile操作
中，执行了map操作，其中只对VALUE值进行了操作，生成MapPartitionsRDD，只包含每个节点处理的数据信息，
基于HadoopRDD产生的Partition去掉行的KEY；
textFile操作最终生成MapPartitionsRDD，依赖于HadoopRDD。
（2)val words=lines.flatMap{line=>line.split(" ")}
每个数据处理节点对对应的Partition中的每一行进行单词切分并且合并成一个大的单词实例的集合。将每一行的
字符串以空格作为分隔符拆分成单词实例的集合。拆分后生成MapPartitionsRDD。
(3)val pairs=words.map{word=>(word,1)}
对每个单词实例变为形如word =>(word,1)
(4)val wordCounts=pairs.reduceByKey(_+_)
reduceByKey包括两部分：Local 级别和Reducer级别的。其中Local级别的Reduce操作，是在Shuffle之前进行的，
主要负责本地局部统计，并且把统计后的结果按照分区策略放到不同的File中，生成MapPartitionsRDD。
从开始到进行完Local级别的reduce，为一个stage。stage内部进行操作是基于内存的迭代，不需要每次操作都有
读写操作，处理速度非常快。
然后进行Shuffle阶段，首先对MapPartitionsRDD的结果进行数据分片，在另外的计算节点，接收相应的数据，
Shuffle过程产生了网络通信，这会造成网络开销。当网络通信占据计算资源量过多时，会成为集群的瓶颈。不同
的Shuffle策略，产生不同的结果，大部分采用hash的方式进行分配。然后进行内部的合并操作，将相同KEY值的
Value进行相加。得到相应节点的处理结果。Shuffle过程产生ShuffledRDD。
(5)wordCounts.saveAsTextFile()
以将计算结果保存到HDFS的角度讲，对于collect也有相应的MapPartitionsRDD。
def saveAsTextFile(path: String): Unit = withScope {
val nullWritableClassTag = implicitly[ClassTag[NullWritable]]
val textClassTag = implicitly[ClassTag[Text]]
val r = this.mapPartitions { iter =>
val text = new Text()
iter.map { x =>
text.set(x.toString)
(NullWritable.get(), text)
}
}
RDD.rddToPairRDDFunctions(r)(nullWritableClassTag, textClassTag, null)
.saveAsHadoopFile[TextOutputFormat[NullWritable, Text]](path)
}
其中的输出的key值为NullWritable，value值为统计的键值对。在第一次计算的时候，需要生产KEY，所以最后往HDFS中写结果的时候，需要生产KEY，这是符合对称法则和能量守恒形式之美。从Shuffle阶段开始到输出结果，为最后一个Stage。因为只产生一个Shuffle过程。

posted on 2016-01-27 23:50 hard-working 阅读(210) 评论(0) 编辑收藏举报

刷新页面返回顶部

午夜的风

公告