摘要: sparkcore 优化 数据倾斜处理 1.etl处理 2.并行度 3.过滤倾斜key(需要null,聚合需求(随机分区预聚合,最终hash散列聚合) 拆分(单独拿出来处理,最终union起来)) 4.reduce join 转mapjoin 5.两阶段聚合 6.无前缀聚合(随机前缀:大表加随机前缀 阅读全文
posted @ 2022-08-26 19:10 Kotlin 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 最近为了调试hive试了很多hive参数,对于hive任务优化,减少使用内存有一些自己的见解,在此做一个记录。 一:mapreduce的基本流程及阶段可进行的优化操作 (其实有很多不用设置有默认的设置,此处做面试,参考设置在下一节) 附上网上的一张老图(虽然老但是很具有代表性,哈哈哈) 上面的图知道 阅读全文
posted @ 2022-08-26 18:58 Kotlin 阅读(423) 评论(0) 推荐(0) 编辑
摘要: Spark-sql概念补充 基本概念 SparkSQL是基于RDD的,可以通过Schema信息来访问其中某个字段 RDD处理的不是结构化数据,所以不能进行类似HIve逻辑优化器的优化操作(条件传播) SparkSQL默认读取的类型都是 DataFrame Catalyst优化器 1.解析SQL,并解 阅读全文
posted @ 2022-08-26 18:45 Kotlin 阅读(109) 评论(0) 推荐(0) 编辑
摘要: Spark-core概念补充 Spark相对于hadoop的优势 1.减少IO(如非必要不落盘) 2.并行度(多线程) 3.中间结果持久化(多次使用) 4.shuffle方案(不排序) 5.内存管理(静态内存,动态内存,内存可配置) 概念 Master节点,协调资源,连接worker节点运行Exxc 阅读全文
posted @ 2022-08-26 17:33 Kotlin 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 有了上面三篇的函数,平时开发应该问题不大了。这篇的主要目的是把所有的函数都过一遍,深入RDD的函数 RDD函数大全 数据准备 val sparkconf = new SparkConf().setAppName("test_Spark_sql").setMaster("local[2]") val  阅读全文
posted @ 2022-08-26 17:14 Kotlin 阅读(59) 评论(0) 推荐(0) 编辑
Live2D