Spark排序之SortByKey
sortByKey函数作用于Key-Value形式的RDD,并对Key进行排序。
package com.test.spark import org.apache.spark.{SparkConf, SparkContext} /** * @author admin * SortByKey:sortByKey对于key是单个元素排序很简单, * 如果key是元组如(X1,X2,X3.....),它会先按照X1排序,若X1相同,则在根据X2排序,依次类推... */ object SparkSortByKeyApplication { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("SortByKey-test") val sc = new SparkContext(conf) val arr = Array((1, 6, 3), (2, 3, 3), (1, 1, 2), (1, 3, 5), (2, 1, 2)) val rdd1 = sc.parallelize(arr) // 设置元素(e1,e3)为key,value为原来的整体 val rdd2 = rdd1.map(e => ((e._1, e._3), e)) // 利用sortByKey排序的对key的特性 val rdd3 = rdd2.sortByKey() val rdd4 = rdd3.values.collect rdd4.foreach(println) } }