RDD
RDD的好处很多,缺点在于不支持增量的迭代计算,比如在task的前半段只做一半数据的处理,后续的task再加上后一半处理,这种需求不支持
还有就是不支持细粒度的更新和写操作
rdd.Partitions() : 需要知道数据分配在哪里,返回一个array,里面是partition对象,该对象指向了数据本身的位置
rdd.compute(splite:Partition, context:TaskContext) : Iterator[T] : 返回一个迭代器类型,计算具体的partition的数据,