spark编程模型（十一）之RDD基础转换操作（Transformation Operation）——zipWithIndex、zipWithUniqueId

zipWithIndex()

def zipWithIndex(): RDD[(T, Long)]

该函数将RDD中的元素和这个元素在RDD中的ID（索引号）组合成键/值对

  scala> var rdd2 = sc.makeRDD(Seq("A","B","R","D","F"),2)
  rdd2: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[34] at makeRDD at :21
   
  scala> rdd2.zipWithIndex().collect
  res27: Array[(String, Long)] = Array((A,0), (B,1), (R,2), (D,3), (F,4))

zipWithUniqueId()

def zipWithUniqueId(): RDD[(T, Long)]
该函数将RDD中元素和一个唯一ID组合成键/值对，该唯一ID生成算法如下：
每个分区中第一个元素的唯一ID值为：该分区索引号，

每个分区中第N个元素的唯一ID值为：(前一个元素的唯一ID值) + (该RDD总的分区数)

  scala> var rdd1 = sc.makeRDD(Seq("A","B","C","D","E","F"),2)
  rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[44] at makeRDD at :21
  //rdd1有两个分区，
  scala> rdd1.zipWithUniqueId().collect
  res32: Array[(String, Long)] = Array((A,0), (B,2), (C,4), (D,1), (E,3), (F,5))
  //总分区数为2
  //第一个分区第一个元素ID为0，第二个分区第一个元素ID为1
  //第一个分区第二个元素ID为0+2=2，第一个分区第三个元素ID为2+2=4
  //第二个分区第二个元素ID为1+2=3，第二个分区第三个元素ID为3+2=5

posted @ 2018-08-11 01:24 oldsix666 阅读(159) 评论(0) 收藏举报

刷新页面返回顶部

一条五香

愿漂泊的人都有酒喝，愿孤独的人都会唱歌。

spark编程模型（十一）之RDD基础转换操作（Transformation Operation）——zipWithIndex、zipWithUniqueId

zipWithIndex()

zipWithUniqueId()

公告