Spark排序之SortBy
1、例子1:按照value进行降序排序
def sortBy[K]( f: (T) => K, ascending: Boolean = true, // 默认为正序排列,从小到大,false:倒序 numPartitions: Int = this.partitions.length) (implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] 返回值是T,数字不会变
package com.test.spark import org.apache.spark.{SparkConf, SparkContext} /** * @author admin * SortBy是SortByKey的增强版 * 按照value进行排序 */ object SparkSortByApplication { def main(args : Array[String]) : Unit = { val conf = new SparkConf().setAppName( "SortSecond" ).setMaster( "local[1]" ) val sc = new SparkContext(conf) val datas = sc.parallelize(Array(( "cc" , 12 ),( "bb" , 32 ),( "cc" , 22 ),( "aa" , 18 ),( "bb" , 16 ),( "dd" , 16 ),( "ee" , 54 ),( "cc" , 1 ),( "ff" , 13 ),( "gg" , 32 ),( "bb" , 4 ))) // 统计key出现的次数 val counts = datas.reduceByKey( _ + _ ) // 按照value进行降序排序 val sorts = counts.sortBy( _ . _ 2 , false ) sorts.collect().foreach(println)
sc.stop() } }
输出结果: (ee,54) (bb,52) (cc,35) (gg,32) (aa,18) (dd,16) (ff,13)
2、例子2:先按照第一个元素升序排序,如果第一个元素相同,再进行第二个元素进行升序排序
package com.sudiyi.spark import org.apache.spark.{SparkConf, SparkContext} /** * @author xubiao * SortBy是SortByKey的增强版 * 先按照第一个,再按照第二个元素进行升序排序 */ object SparkSortByApplication { def main(args : Array[String]) : Unit = { val conf = new SparkConf().setAppName( "SortSecond" ).setMaster( "local[1]" ) val sc = new SparkContext(conf) val arr = Array(( 1 , 6 , 3 ), ( 2 , 3 , 3 ), ( 1 , 1 , 2 ), ( 1 , 3 , 5 ), ( 2 , 1 , 2 )) val datas 2 = sc.parallelize(arr) val sorts 2 = datas 2 .sortBy(e = > (e. _ 1 ,e. _ 2 )) sorts 2 .collect().foreach(println) sc.stop() } }
输出结果: (1,1,2) (1,3,5) (1,6,3) (2,1,2) (2,3,3)
故乡明
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话
2021-04-29 Python数据类型知识点全解