深入理解Spark RDD

RDD是什么？

RDD，全称是Reslilient Distributed Datasets,是一个容错的，并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据。在这些操作中。诸如map,flatMap，filter等转换操作实现了monad模式，很好的契合了Scala的集合操作。除此之外，RDD还提供了诸如join,groupBy，reduceByKey等更为方便的操作，(注意：reduceByKey是action，而非transformation)，以支持常见的数据运算。

通常来讲，针对数据处理有集中常见模型，包括：Iterative Algorithms，Relational Queries，MapReduce，Stream Processing。例如Hadoop MapReduce采用了MapReduces模型，Storm则采用了Stream Processing模型。RDD混合了这四种模型，使得Spark可以应用于各种大数据处理场景。

RDD作为数据结构，本质上是一个只读的分区记录集合。一个RDD可以包含多个分区，每个分区就是一个dataset片段。RDD可以相互依赖。如果RDD的每个分区最多只能被一个Child RDD的一个分区使用，则称之为narrow dependency;若多个Child RDD分区都可以依赖，则称之为wide dependency。不同的操作依据其特性。，可以回产生不同的依赖。例如map操作会产生narrow dependency.而join操作则参数wide dependency.

Spark之所以将依赖分为narrow和wide.基于两点原因。

首先，narrow dependencies可以支持在同一个cluster node上以管道形式执行多条命令，例如在执行了map后，紧接着执行filter。相反，wide dependecies需要所有的福分区都是可用的，可能还需要调用雷速MapReduce之类的操作进行跨节点传递。

其次，则是从失败恢复的角度考虑。narrow dependencies的失败恢复更有效，因为它只需要重新计算丢失的parent partition即可，而且可以并行地在不同节点进行重计算。而wide dependencies牵涉到RDD各级的多个Parent Partitions。下图说明了narrow dependencies与wide dependencies之间的区别：

posted on 2016-05-26 16:28 SUNAJING 阅读(327) 评论(0) 收藏举报

刷新页面返回顶部

sunajing

深入理解Spark RDD

导航

公告