随笔分类 -  spark

摘要:lyzx1,19 lyzx2,20 lyzx3,21 lyzx4,22 lyzx5,23 lyzx6,24 lyzx7,25 托塔天王 lyzx7,25,哈哈 package com.zxwa.live.process.test import org.apache.spark.rdd.RDD imp 阅读全文
posted @ 2022-05-06 21:22 Bonnie_ξ 阅读(24) 评论(0) 推荐(0) 编辑
摘要:1、例子1:按照value进行降序排序 def sortBy[K]( f: (T) => K, ascending: Boolean = true, // 默认为正序排列,从小到大,false:倒序 numPartitions: Int = this.partitions.length) (impl 阅读全文
posted @ 2022-04-29 17:22 Bonnie_ξ 阅读(614) 评论(0) 推荐(0) 编辑
摘要:join 函数定义 def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] def join[W](other: R 阅读全文
posted @ 2022-04-28 11:41 Bonnie_ξ 阅读(474) 评论(0) 推荐(0) 编辑
摘要:所谓的偏函数是指 被包在花括号内没有match的一组case语句 , 偏函数是PartialFunction[A, B]类型的的一个实例对 象, 其中A代表输入参数类型, B代表返回结果类型. 格式 val 对象名 = { //这对大括号及其内部的一组case语句, 就组成了一个偏函数. case 阅读全文
posted @ 2022-04-27 15:57 Bonnie_ξ 阅读(136) 评论(0) 推荐(0) 编辑
摘要:例如: List(1, 2, 3).map(i=> i + 1) List(1, 2, 3).map {i => i + 1} 他们都得到相同的结果:List(2, 3, 4) 但是对于此示例List(1, 2).map { println("Hi"); _ + 1 }结果如下,为什么 '嗨' 只打 阅读全文
posted @ 2022-04-27 15:34 Bonnie_ξ 阅读(280) 评论(0) 推荐(0) 编辑
摘要:people.txt文本如下 lyzx1,19 lyzx2,20 lyzx3,21 lyzx4,22 lyzx5,23 lyzx6,24 lyzx7,25 lyzx7,25,哈哈 托塔天王 def main(args: Array[String]): Unit = { // val conf = n 阅读全文
posted @ 2022-04-27 15:31 Bonnie_ξ 阅读(96) 评论(0) 推荐(0) 编辑
摘要:1.reduceByKey(func) 功能: 使用func函数合并具有相同键的值 用scala编写 def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setAppName("Test3 阅读全文
posted @ 2022-04-25 18:32 Bonnie_ξ 阅读(154) 评论(0) 推荐(0) 编辑
摘要:一、先看结论 1.从Shuffle的角度 reduceByKey 和 groupByKey都存在shuffle操作,但是reduceByKey可以在shuffle之前对分区内相同key的数据集进行预聚合(combine)功能,这样会较少落盘的数据量,而groupByKey只是进行分组,不存在数据量减 阅读全文
posted @ 2022-04-25 18:02 Bonnie_ξ 阅读(171) 评论(0) 推荐(0) 编辑
摘要:比如我的内存中存在如下的以key-value形式的数据集(RDD): hello:1 sparkSubmit:1 red:1 sparkSubmit:1 hello:2 hello:1 hello:4 red:1 red:1 red:1 ... reduceByKey的作用对象是(key, valu 阅读全文
posted @ 2022-04-25 17:41 Bonnie_ξ 阅读(356) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示