Spark RDD算子之关联操作 -- join、fullOuterJoin、leftOuterJoin、rightOuterJoin、subtractByKey

join

函数定义

def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]

def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))]

def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))]

可以把RDD1，RDD2中的相同的 key 给连接起来，类似于 sql 中的 join 操作；若有多个相同的 key 则连接多次，仔细查看比较运行结果

Scala版本

    val conf = new SparkConf().setAppName("JoinScala").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("a",1),("c",2),("a",3),("b",4),("c",5),("d",6)))
    val rdd2 = sc.parallelize(List(("b",5),("c",4),("a",6),("a",9),("c",3),("d",2)))
    val join = rdd1.join(rdd2)
    join.collect.foreach(println)

`fullOuterJoin`

Scala版本

    val conf = new SparkConf().setAppName("fullOuterJoin").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("a",1),("c",2),("b",4),("d",6)))
    val rdd2 = sc.parallelize(List(("b",5),("c",4),("a",9),("d",2)))
    val fullOut = rdd1.fullOuterJoin(rdd2)
    fullOut.collect.foreach(println)

leftOuterJoin

对两个 RDD 进行连接操作，类似于sql中的左外连接，仔细查看比较运行结果

Scala版本

    val conf = new SparkConf().setAppName("leftOuterJoin").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("a",1),("c",2),("b",4),("d",6)))
    val rdd2 = sc.parallelize(List(("b",5),("a",9),("d",2)))
    val left = rdd1.leftOuterJoin(rdd2)
    left.collect.foreach(println)

rightOuterJoin

对两个 RDD 进行连接操作，类似于sql中的右外连接，存在的话，value用的Some, 不存在用的None，仔细查看比较运行结果

Scala版本

    val conf = new SparkConf().setAppName("rightOuterJoin").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("c",2),("b",4),("d",6)))
    val rdd2 = sc.parallelize(List(("b",5),("a",9),("d",2)))
    val right = rdd1.rightOuterJoin(rdd2)
    right.collect.foreach(println)

subtractByKey

类似于 subtrac，删掉 RDD1 中键与 RDD2 中的键相同的元素，仔细查看比较运行结果

Scala版本

    val conf = new SparkConf().setAppName("subtractByKey").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("a",6),("c",2),("b",4),("d",6)))
    val rdd2 = sc.parallelize(List(("b",5),("a",9),("d",2)))
    val sub = rdd1.subtractByKey(rdd2)
    sub.collect.foreach(println)

posted @ 2022-04-28 11:41 Bonnie_ξ 阅读(545) 评论(0) 收藏举报

刷新页面返回顶部

Bonnie_ξ

Spark RDD算子之关联操作 -- join、fullOuterJoin、leftOuterJoin、rightOuterJoin、subtractByKey

join

fullOuterJoin

公告

`fullOuterJoin`