08 2021 档案

Hive中的4种Join方式

摘要：common join 普通join，性能较差，存在Shuffle map join 适用情况：大表join小表时，做不等值join 原理：将小表数据广播到各个节点，存储在内存中，在map阶段直接join，不需要进行reduce，没有了shuffle 优点：性能大大提高限制：小表需要在内存中放的下阅读全文

posted @ 2021-08-31 16:40 梦里繁花阅读(692) 评论(0) 推荐(0) 编辑

Spark分区器浅析

摘要：分区器作用：决定该数据在哪个分区概览：仅仅只有pairRDD才可能持有分区器，普通RDD的分区器为None 在分区器为None时RDD分区一般继承至父RDD分区初始RDD分区数：由集合创建，RDD分区数为cores总数由本地文件创建，RDD分区数为本地文件分片数由HDFS文件创建，RDD 阅读全文

posted @ 2021-08-23 15:40 梦里繁花阅读(126) 评论(0) 推荐(0) 编辑

scala基础篇使用getter和setter方法而不使用public的情形

摘要：主要是基于2种情形 1）提供读只取/只写入方法，不能随意读写 2）做赋值时变量控制，比如设定值的区间范围等例子： object test{ def main(args: Array[String]): Unit = { val person = new person person.name_=( 阅读全文

posted @ 2021-08-16 17:04 梦里繁花阅读(56) 评论(0) 推荐(0) 编辑

scala基础篇源码中 :_*的作用

摘要：在scala源码中有大量的:_*，其作用是把Array、list转换为参数列表，作为变长参数传入参数列表例子： def sumx(a:Int*)={ a.sum } val a=Range(1,9) println(a.toString) println(sumx(a:_*)) 阅读全文

posted @ 2021-08-16 14:57 梦里繁花阅读(1041) 评论(0) 推荐(0) 编辑

scala基础篇---- Try finally不加catch的使用情形

摘要：普通的try-catch-finally Try{ } catch{//不加catch向上抛出异常 case _=> } finally{//一般是资源关闭 } 普通的try-finally Try{ } finally{//一般是资源关闭 } try-finally,没有抛出异常，还是会报错，只不阅读全文

posted @ 2021-08-16 10:34 梦里繁花阅读(293) 评论(0) 推荐(0) 编辑

spark运行速度优化方法

摘要：1、打开spark.sql.adaptive开关阅读全文

posted @ 2021-08-15 21:39 梦里繁花阅读(132) 评论(0) 推荐(0) 编辑