RDD

RDD的好处很多,缺点在于不支持增量的迭代计算,比如在task的前半段只做一半数据的处理,后续的task再加上后一半处理,这种需求不支持

还有就是不支持细粒度的更新和写操作

 

rdd.Partitions() : 需要知道数据分配在哪里,返回一个array,里面是partition对象,该对象指向了数据本身的位置

rdd.compute(splite:Partition, context:TaskContext) : Iterator[T] : 返回一个迭代器类型,计算具体的partition的数据,

posted on 2016-08-05 11:27  杰克再造  阅读(153)  评论(0编辑  收藏  举报

导航