Spark RDD算子之关联操作 -- join、fullOuterJoin、leftOuterJoin、rightOuterJoin、subtractByKey
join
函数定义
def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]
def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))]
def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))]
可以把RDD1,RDD2中的相同的 key 给连接起来,类似于 sql 中的 join 操作;若有多个相同的 key 则连接多次,仔细查看比较运行结果
Scala版本
val conf = new SparkConf().setAppName("JoinScala").setMaster("local[*]") val sc = new SparkContext(conf) val rdd1 = sc.parallelize(List(("a",1),("c",2),("a",3),("b",4),("c",5),("d",6))) val rdd2 = sc.parallelize(List(("b",5),("c",4),("a",6),("a",9),("c",3),("d",2))) val join = rdd1.join(rdd2) join.collect.foreach(println)
fullOuterJoin
Scala版本
val conf = new SparkConf().setAppName("fullOuterJoin").setMaster("local[*]") val sc = new SparkContext(conf) val rdd1 = sc.parallelize(List(("a",1),("c",2),("b",4),("d",6))) val rdd2 = sc.parallelize(List(("b",5),("c",4),("a",9),("d",2))) val fullOut = rdd1.fullOuterJoin(rdd2) fullOut.collect.foreach(println)
leftOuterJoin
对两个 RDD 进行连接操作,类似于sql中的左外连接,仔细查看比较运行结果
Scala版本
val conf = new SparkConf().setAppName("leftOuterJoin").setMaster("local[*]") val sc = new SparkContext(conf) val rdd1 = sc.parallelize(List(("a",1),("c",2),("b",4),("d",6))) val rdd2 = sc.parallelize(List(("b",5),("a",9),("d",2))) val left = rdd1.leftOuterJoin(rdd2) left.collect.foreach(println)
rightOuterJoin
对两个 RDD 进行连接操作,类似于sql中的右外连接,存在的话,value用的Some, 不存在用的None,仔细查看比较运行结果
Scala版本
val conf = new SparkConf().setAppName("rightOuterJoin").setMaster("local[*]") val sc = new SparkContext(conf) val rdd1 = sc.parallelize(List(("c",2),("b",4),("d",6))) val rdd2 = sc.parallelize(List(("b",5),("a",9),("d",2))) val right = rdd1.rightOuterJoin(rdd2) right.collect.foreach(println)
subtractByKey
类似于 subtrac,删掉 RDD1 中键与 RDD2 中的键相同的元素,仔细查看比较运行结果
Scala版本
val conf = new SparkConf().setAppName("subtractByKey").setMaster("local[*]") val sc = new SparkContext(conf) val rdd1 = sc.parallelize(List(("a",6),("c",2),("b",4),("d",6))) val rdd2 = sc.parallelize(List(("b",5),("a",9),("d",2))) val sub = rdd1.subtractByKey(rdd2) sub.collect.foreach(println)
故乡明
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话