【spark】常用转换操作:join
join就表示内连接。
对于内链接,对于给定的两个输入数据集(k,v1)和(k,v2)
根据相同的k进行连接,最终得到(k,(v1,v2))的数据集。
示例
val arr1 = Array(("spark",1),("spark",2),("hadoop",2),("hadoop",5)) val pairRdd1 = sc.parallelize(arr1) val arr2 = Array(("spark","fast")) val pairRdd2 = sc.parallelize(arr2) pairRdd1.join(pairRdd2).collect.foreach(println)
结果
(spark,(1,fast)) (spark,(2,fast))
注意,join是内连接,连接的结果只有两个数据集相同做了连接的部分,没进行连接的部分全部pass掉了。