spark - 随笔分类 - Bonnie_ξ

spark mr 文件统计

摘要：lyzx1,19 lyzx2,20 lyzx3,21 lyzx4,22 lyzx5,23 lyzx6,24 lyzx7,25 托塔天王 lyzx7,25,哈哈 package com.zxwa.live.process.test import org.apache.spark.rdd.RDD imp 阅读全文

posted @ 2022-05-06 21:22 Bonnie_ξ 阅读(38) 评论(0) 推荐(0)

Spark排序之SortBy

摘要：1、例子1：按照value进行降序排序 def sortBy[K]( f: (T) => K, ascending: Boolean = true, // 默认为正序排列，从小到大,false:倒序 numPartitions: Int = this.partitions.length) (impl 阅读全文

posted @ 2022-04-29 17:22 Bonnie_ξ 阅读(671) 评论(0) 推荐(0)

Spark RDD算子之关联操作 -- join、fullOuterJoin、leftOuterJoin、rightOuterJoin、subtractByKey

摘要：join 函数定义 def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] def join[W](other: R 阅读全文

posted @ 2022-04-28 11:41 Bonnie_ξ 阅读(539) 评论(0) 推荐(0)

Scala之偏函数

摘要：所谓的偏函数是指被包在花括号内没有match的一组case语句 , 偏函数是PartialFunction[A, B]类型的的一个实例对象, 其中A代表输入参数类型, B代表返回结果类型. 格式 val 对象名 = { //这对大括号及其内部的一组case语句, 就组成了一个偏函数. case 阅读全文

posted @ 2022-04-27 15:57 Bonnie_ξ 阅读(164) 评论(0) 推荐(0)

scala中.map（...）和.map {...}之间的区别是什么

摘要：例如： List(1, 2, 3).map(i=> i + 1) List(1, 2, 3).map {i => i + 1} 他们都得到相同的结果：List(2, 3, 4) 但是对于此示例List(1, 2).map { println("Hi"); _ + 1 }结果如下，为什么 '嗨' 只打阅读全文

posted @ 2022-04-27 15:34 Bonnie_ξ 阅读(295) 评论(0) 推荐(0)

map+case结构使用技巧

摘要：people.txt文本如下 lyzx1,19 lyzx2,20 lyzx3,21 lyzx4,22 lyzx5,23 lyzx6,24 lyzx7,25 lyzx7,25,哈哈托塔天王 def main(args: Array[String]): Unit = { // val conf = n 阅读全文

posted @ 2022-04-27 15:31 Bonnie_ξ 阅读(133) 评论(0) 推荐(0)

Spark之groupByKey和reduceByKey的区别

摘要：1.reduceByKey（func）功能：使用func函数合并具有相同键的值用scala编写 def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setAppName("Test3 阅读全文

posted @ 2022-04-25 18:32 Bonnie_ξ 阅读(214) 评论(0) 推荐(0)

Spark中的reduceByKey()和groupByKey()的区别

摘要：一、先看结论 1.从Shuffle的角度 reduceByKey 和 groupByKey都存在shuffle操作，但是reduceByKey可以在shuffle之前对分区内相同key的数据集进行预聚合（combine）功能，这样会较少落盘的数据量，而groupByKey只是进行分组，不存在数据量减阅读全文

posted @ 2022-04-25 18:02 Bonnie_ξ 阅读(191) 评论(0) 推荐(0)

Spark中reduceByKey(_+_)的说明

摘要：比如我的内存中存在如下的以key-value形式的数据集（RDD）： hello:1 sparkSubmit:1 red:1 sparkSubmit:1 hello:2 hello:1 hello:4 red:1 red:1 red:1 ... reduceByKey的作用对象是(key, valu 阅读全文

posted @ 2022-04-25 17:41 Bonnie_ξ 阅读(393) 评论(0) 推荐(1)

Bonnie_ξ

随笔分类 - spark

公告