Spark RDD算子之关联操作 -- join、fullOuterJoin、leftOuterJoin、rightOuterJoin、subtractByKey

join

函数定义

def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]

def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))]

def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))]

可以把RDD1,RDD2中的相同的 key 给连接起来,类似于 sql 中的 join 操作;若有多个相同的 key 则连接多次,仔细查看比较运行结果

Scala版本

    val conf = new SparkConf().setAppName("JoinScala").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("a",1),("c",2),("a",3),("b",4),("c",5),("d",6)))
    val rdd2 = sc.parallelize(List(("b",5),("c",4),("a",6),("a",9),("c",3),("d",2)))
    val join = rdd1.join(rdd2)
    join.collect.foreach(println)

fullOuterJoin

Scala版本

    val conf = new SparkConf().setAppName("fullOuterJoin").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("a",1),("c",2),("b",4),("d",6)))
    val rdd2 = sc.parallelize(List(("b",5),("c",4),("a",9),("d",2)))
    val fullOut = rdd1.fullOuterJoin(rdd2)
    fullOut.collect.foreach(println)

 leftOuterJoin

 对两个 RDD 进行连接操作,类似于sql中的左外连接,仔细查看比较运行结果

Scala版本

    val conf = new SparkConf().setAppName("leftOuterJoin").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("a",1),("c",2),("b",4),("d",6)))
    val rdd2 = sc.parallelize(List(("b",5),("a",9),("d",2)))
    val left = rdd1.leftOuterJoin(rdd2)
    left.collect.foreach(println)

 rightOuterJoin

对两个 RDD 进行连接操作,类似于sql中的右外连接,存在的话,value用的Some, 不存在用的None,仔细查看比较运行结果

Scala版本

    val conf = new SparkConf().setAppName("rightOuterJoin").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("c",2),("b",4),("d",6)))
    val rdd2 = sc.parallelize(List(("b",5),("a",9),("d",2)))
    val right = rdd1.rightOuterJoin(rdd2)
    right.collect.foreach(println)

 subtractByKey

类似于 subtrac,删掉 RDD1 中键与 RDD2 中的键相同的元素,仔细查看比较运行结果

Scala版本

    val conf = new SparkConf().setAppName("subtractByKey").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("a",6),("c",2),("b",4),("d",6)))
    val rdd2 = sc.parallelize(List(("b",5),("a",9),("d",2)))
    val sub = rdd1.subtractByKey(rdd2)
    sub.collect.foreach(println)

posted @ 2022-04-28 11:41  Bonnie_ξ  阅读(377)  评论(0编辑  收藏  举报